简数采集常见问题
- 简数采集器需要安装吗?
- 任务启动后,可以切换或关闭页面吗?
- 任务一直处于运行状态,但没有更新提示或者没有采集到数据
- 详情提取器的description和keywords字段如何设置?
- 如何采集已删除的数据?
- 进入控制台后经常跳回登录界面解决方法
- 登录失败,原因绑定用户失败的解决方法
- 如何获取任务id
- 如何删除已采集的数据?
- 如何采集已获取链接的文章页内容?
- 可以采集视频吗?
- 采集的内容有部分乱码解决方法
- 采集提示数据入库失败,请重试怎么解决
- 如何添加IP到白名单或安全组
- 采集数据没有排版,没有分段解决方法
1.简数采集器需要安装吗?
不需要安装的,简数采集器是在线采集软件,完全云采集,浏览器直接登录简数控制台就可以使用了。
2.任务启动后,可以切换或关闭页面吗?
可以的。启动采集后可以关闭页面,包括关机。任务会在云端自动运行的。
3.任务一直处于运行状态,但没有更新提示或者没有采集到数据
可能原因:程序更新维护,服务器重启了。这时你可以先暂停任务,再继续采集就可以了。注意可以不使用停止,停止了的话会重新采集列表详情链接,浪费时间。
4.详情提取器的description和keywords字段如何设置?
详情提取器的description和keywords字段是获取页面对应的meta标签content属性中的内容,如果使用智能向导创建采集任务,这两个字段是会自动生成的,无需配置;
I、在详情提取器 【当前字段Xpath】 填写:
description字段://meta[@name="description"]
keywords字段://meta[@name="keywords"]
II、在description和keywords字段的 【高级设置】中提取值类型选择 ‘节点属性’,属性值填写 content;
III、有些页面没有对应的meta标签,description或keywords字段采集内容则为空;
此时如果想修改为采集页面的内容,而不是采集meta标签内容,先要修改description或keywords字段的提取值类型,改为文本,再去点选要采集的区域;
5.如何采集已删除的数据?
同个任务的重复数据默认跳过不采集的,即使是已经删除的数据也会跳过不采集的,所以想要采集已经删除的数据,有以下两种方法解决:
I、清空已采集网址
清空系统的已采集网址记录:【结果数据】==》 【更多操作】 ==》 清空已采集网址 ==》 启动采集即可;
II、重复数据覆盖采集
启动任务采集时,重复数据处理选择【覆盖已存在数据】;(采集后建议改回跳过不再采集保存,避免下次重复采集相同数据)
6.进入控制台后经常跳回登录界面解决方法
如果进入简数控制台之后,每次请求都跳到登录界面,请检查您所在网络IP地址是否不固定,可刷新多次登录页面查看下方的ip地址,或联系管理员QQ:3043176563或3071166977。
7.登录失败,原因绑定用户失败的解决方法?
当登录进入简数控制台时,提示:登录失败,请重试,原因:绑定用户失败,请重试!
解决方法,再重新登录一次即可,提示的绑定用户失败信息无需理会。
8.如何获取任务id?
进入任务界面,在左侧上方或者url地址的后面都有任务id:
9.如何删除已采集的数据?
当采集的数据总存储量(任务采集入库数据量)超过套餐限制,就需要删除已导出发送或者无用的数据,腾出空间继续采集;
查看当前数据总存储量:在控制台界面点击左侧列表的【账户及套餐余量】,总存储量是包含所有采集任务入库的数据量和链接段落库中的段落数量之和;
以下是多种删除数据的方法:
I、按照任务删除不要的数据:
进入某个任务的【结果数据】栏目:
- 可以选择勾上不要的部分数据,然后点击删除按钮;
- 可以按照数据状态批量删除;
- 可以直接删除全部数据;
- **删除的数据对应暂存简数的图片也会被删除的;**
II、任务列表处删除数据:
点击对应任务数据量列的红色垃圾桶按钮,删除该任务的全部数据;
III、批量删除多个任务的数据:
在任务列表处选择勾上要删除的任务,然后点击【更多操作】按钮,再点击【删除任务全部数据】;
提示:直接删除任务,任务里的数据和暂存简数的图片都会被删除的;
10.如何采集已获取链接的文章页内容?
如果是想零散采集几篇文章,或者文章页的网址是有规律变化(例如数字递增),不需要从列表页获取链接,可以使用采集模式【详情页(零散采集)】,注意记得点击保存,然后只设置详情提取器的采集规则即可;
11.可以采集视频吗?
简数暂时不支持下载视频或音频文件,只能保留原视频或者采集视频链接;
保留视频操作:
打开详情提取器的正文字段设置,点击【HTML标签过滤】栏目,再点击【重置为默认】按钮,然后勾选上video和iframe标签,保存即可;
12.采集的内容有部分乱码解决方法
一般是采集目标站使用GBK或者GB2312字符编码,导致采集的部分内容有乱码。
解决方法有两种:
I、详情提取器网络配置
点击详情提取器左下角的 【网络配置】,在弹出窗口的【页面编码】选择 GBK或者GB2312,保存后再测试采集试试;
II、启动采集界面网络配置
或者在启动采集界面的 【网络配置】里面设置,在弹出窗口的【页面编码】选择GBK或者GB2312,保存后启动采集试试;
13.采集提示数据入库失败,请重试怎么解决?
一般是由于某个字段(title字段默认)设置了【采集结果不得为空】,实际这个字段采集内容为空时就会过滤不入库。可用于过滤掉一些广告等页面,如果采集规则不通用也会导致的,请检查规则通用性。
还可能是设置了过滤屏蔽功能导致的;
如果排除以上问题,请检查字段名称是否用了特殊符号。
14.如何添加IP到白名单或安全组
发送失败时,可以尝试加一下ip到白名单,十有八九可以解决。
因为发送是不断请求服务器,很多服务商会认为是攻击,阻拦屏蔽掉。
注意:IP可从导出发送目标管理页面下方获取;
例如阿里云服务器的ip白名单设置
例如宝塔的ip白名单设置:
I、5.9版本之前的宝塔有自带的WAF防火墙(或过滤器),在软件管理的Nginx设置处,添加简数ip到IP白名单,
6.X版本之后的宝塔没有自带的防火墙,如果没有安装防火墙,就无需在宝塔端添加IP白名单。
II、如果是安装了付费版宝塔防火墙,添加IP白名单设置在软件管理处:
15.采集数据没有排版,没有分段解决方法
采集数据的内容没有排版,没有图片,没有分段时,尝试以下方法解决:
在任务详情提取器中,打开对应字段设置,点击【HTML标签过滤】选项:
1)勾上获取html;
2)勾上过滤部分html标签;
3)点击重置为默认按钮;
4)勾上层<div
;
5)保存,测试采集看看效果;