简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

简数采集常见问题(汇总)





1.简数采集器需要安装吗?

  不需要安装的,简数采集器是在线采集软件,完全云采集,浏览器直接登录简数控制台就可以使用了。

2.任务启动后,可以切换或关闭页面吗?

  可以的。启动采集后可以关闭页面,包括关机。任务会在云端自动运行的。

3.如何获取任务id?

  进入任务界面,在左侧上方或者url地址的后面都有任务id:

4.任务一直处于运行状态,但没有更新提示或者没有采集到数据

  可能原因:程序更新维护,服务器重启了。这时你可以先暂停任务,再继续采集就可以了。注意可以不使用停止,停止了的话会重新采集列表详情链接,浪费时间。

5.详情提取器的description和keywords字段如何设置?

  详情提取器的description和keywords字段是获取页面对应的meta标签content属性中的内容,如果使用智能向导创建采集任务,这两个字段是会自动生成的,无需配置;

  I、在详情提取器 【当前字段Xpath】 填写:

  • description字段://meta[@name="description"]

  • keywords字段://meta[@name="keywords"]


  II、在description和keywords字段的 【高级设置】中提取值类型选择 ‘节点属性’,属性值填写 content;


  III、有些页面没有对应的meta标签,description或keywords字段采集内容则为空;

  此时如果想修改为采集页面的内容,而不是采集meta标签内容,先要修改description或keywords字段的提取值类型,改为文本,再去点选要采集的区域;

6.如何采集已删除的数据?

  同个任务的重复数据默认跳过不采集的,即使是已经删除的数据也会跳过不采集的,所以想要采集已经删除的数据,有以下两种方法解决(二选一):

  I、清空已采集网址

  启动任务采集前,先点击右上方的【清空已采网址(重新采集)】,然后再点击启动采集按钮。

  II、重复数据覆盖采集

  启动任务采集时,重复数据处理选择【覆盖已存在数据】;(采集后建议改回跳过不再采集,避免下次重复采集相同数据)

7.如何删除已采集的数据?

  当采集的数据总存储量(任务采集入库数据量)超过套餐限制,就需要删除已导出发送或者无用的数据,腾出空间继续采集;

  查看当前数据总存储量:在控制台界面点击左侧列表的【账户及套餐余量】,总存储量是包含所有采集任务入库的数据量和链接段落库中的段落数量之和;

  以下是多种删除数据的方法:

I、按照任务删除不要的数据:

  进入某个任务的【结果数据】栏目:

- 可以选择勾上不要的部分数据,然后点击删除按钮;
- 可以按照数据状态批量删除;
- 可以直接删除全部数据;
- <strong>删除的数据对应暂存简数的图片也会被删除的;</strong>

II、按照关键词删除数据:

  进入任务的【结果数据】,点击【删除处理】按钮,然后选择【查询并删除记录】选项,输入想要删除等于或包含的关键词,最后点击【执行删除】按钮即可。

  注意:等于是与输入的关键词完全相同,不能有其他字符才会删除,包含是含有你输入的关键词就删除对应的数据;

  还支持以下快捷删除:

  • 删除记录(已选字段值为空的):如果数据对应要操作的字段值为空,该数据就会被删除;

  • 清空已选字段数据:清空要操作的字段的值内容,数据的其他字段不受影响;

III、任务列表处删除数据:

  点击对应任务数据量列的红色垃圾桶按钮,删除该任务的全部数据;

IV、批量删除多个任务的数据:

  在任务列表处选择勾上要删除的任务,然后点击【更多操作】按钮,再点击【删除任务全部数据】;

  提示:直接删除任务,任务里的数据和暂存简数的图片都会被删除的;

8.如何采集已获取链接的文章页内容?

  如果是想零散采集几篇文章,或者文章页的网址是有规律变化(例如数字递增),不需要从列表页获取链接,可以使用采集模式【详情页(零散采集)】,注意记得点击保存,然后只设置详情提取器的采集规则即可;

9.可以采集视频吗?

  简数暂时不支持下载视频或音频文件,只能保留原视频或者采集视频链接;

  保留视频操作:

  打开详情提取器的正文字段设置,点击【HTML标签过滤】栏目,再点击【重置为默认】按钮,然后勾选上video和iframe标签,保存即可;

10.采集的内容有部分乱码解决方法

  一般是采集目标站使用GBK或者GB2312字符编码,导致采集的部分内容有乱码。

  解决方法有两种:

I、详情提取器网络配置

  点击详情提取器左下角的 【网络配置】,在弹出窗口的【页面编码】选择 GBK或者GB2312,保存后再测试采集试试;

II、启动采集界面网络配置

  或者在启动采集界面的 【网络配置】里面设置,在弹出窗口的【页面编码】选择GBK或者GB2312,保存后启动采集试试;

11.采集提示数据入库失败,请重试怎么解决?

  一般是由于某个字段(title字段默认)设置了【采集结果不得为空】,实际这个字段采集内容为空时就会过滤不入库。可用于过滤掉一些广告等页面,如果采集规则不通用也会导致的,请检查规则通用性。

  还可能是设置了过滤屏蔽功能导致的;

  如果排除以上问题,请检查字段名称是否用了特殊符号。


12.采集数据没有排版,没有分段解决方法

  采集数据的内容没有排版,没有图片,没有分段时,尝试以下方法解决:

  在任务详情提取器中,打开对应字段设置,点击【HTML标签过滤】选项:

  1)勾上获取html;

  2)勾上过滤部分html标签;

  3)点击重置为默认按钮;

  4)勾上层<div

  5)保存,测试采集看看效果;


13. 批量启动或停止多个任务的采集发送(包括定时功能)

  在任务列表页面的更多操作按钮,可以批量启动或停止已勾选多个任务的采集发送功能,包括批量取消定时采集和定时发送功能。

  批量停止&取消定时采集:不仅停止正在运行采集的任务,还同时取消该任务设置的定时采集功能;

  批量停止&取消定时发送:不仅停止正在运行发送的任务,还同时取消该任务设置的定时发送功能;


14. 正文内容不保留Html代码,只保留纯文本设置方法

  正文内容(content字段)默认是保留Html代码的,保留就有图片和排版。

  如果只需要保留正文文本,修改方法:进入详情提取器 --》点击content字段设置 --》再点击高级提取 --》提取值类型改选为文本 --》保存,再重新采集数据即可。


15. 如何采集网站地图(sitemap)页面

  网站地图(站点地图)地址常见是:域名/sitemap.xml域名/sitemap.html

  在简数采集器采集网站地图(sitemap)页面设置很简单,只需要一步操作:打开列表提取器,然后点击【配置为SiteMap】按钮即可,系统会自动修改为匹配网站地图的采集规则,十分简单快捷。


16. 如何设置采集内容为空时不采集

  当采集的数据标题或内容为空时,可设置这些空数据不采集入库,设置方法如下:

  打开对应采集任务的详情提取器配置页面,选择content字段,接着在左侧下方的快捷设置区域,【采集结果不得为空】选项勾上(即当正文内容为空时该数据不采集入库),最后点击页面右上方保存按钮。

  PS:标题title字段默认已勾上【采集结果不得为空】选项。

  更多过滤屏蔽功能可看【内容过滤排除(设置屏蔽词)】

删除某字段内容为空的数据

  如果是已经采集入库的数据,想要删除某字段内容值为空的数据,可以在对应任务的【结果数据&导出发送】处,点击【数据处理工具】按钮 --》在弹出的配置窗口,点击【查询并删除记录】选项 --》在【要操作的字段】处选择对应字段,然后点击下方的【删除记录(已选字段值为空的)】按钮,即可删除。


17. 列表页无翻页采集方法

  采集的列表页没有翻页,例如需点击加载更多,滚动加载(瀑布流加载)等列表页,可尝试以下方法间接采集:

  1)JS异步加载功能

  使用JS动态功能加载网页内容,在【列表提取器】页面右上方,勾上【使用JS动态数据】,点击保存按钮,然后刷新页面查看网页内容是否显示。

  2)详情页批量采集模式

  列表页没有翻页,可以查看文章页网址是否有规律变化(按数字递增),选择详情页(零散采集)模式,批量生成文章页网址采集。

  3)循环采集下一篇文章方式

  如果详情文章页有 “下一篇文章” 等链接,可以使用无限循环采集功能,不断循环采集每篇文章的下一篇文章,实现采集网站大部分文章的效果。

  4)网站地图采集方式

  查看是否有网站地图页面,使用网站地图(sitemap)模式采集:网站地图(Sitemap)提取网址

  5)JSON采集方式

  查看是否有返回JSON数据的网址,使用JSON模式采集:如何获取返回Json数据网址


18. 规则提取器页面无法点选,或加载显示为空解决方法

  在列表页和详情页提取器页面,有两种情况无法通过鼠标点选生成采集规则:

  • 1)要采集的网页加载不出来为空白,无法点选;
  • 2)网页加载显示正常,但是点选时无反应,或者跳转到其他网页;

  可能是内容被隐藏起来,或者是与网页的脚本代码冲突了,可以尝试手写Xpath路径来解决。(Xpath常见语法使用教程


简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

results matching ""

    No results matching ""