zid简数导航: 简数采集器   简数控制台

简数采集常见问题

  1. 任务启动后,可以切换或关闭页面吗?
  2. 如何采集图片保存到自己服务器,并替换原图片地址呢?
  3. 任务一直处于运行状态,但没有更新提示或者没有采集到数据
  4. 详情提取器的description和keywords字段如何设置?
  5. 如何采集已删除的数据?
  6. 进入控制台后经常跳回登录界面解决方法
  7. 登录失败,原因绑定用户失败的解决方法
  8. 如何获取任务id
  9. 如何删除已采集的数据?
  10. 快速删除内容中的链接或者图片
  11. 如何采集已获取链接的文章页内容?
  12. 可以采集视频吗?
  13. 采集的内容有部分乱码解决方法
  14. 简数采集图片路径怎么改?
  15. SEO规则执行失败怎么解决?
  16. 采集提示数据入库失败,请重试怎么解决
  17. 批量修改数据的SEO或xAPI状态


1.任务启动后,可以切换或关闭页面吗?

  可以的。启动采集(包括定时采集、自动发布)、按条件发布这些启动或执行后都可以关闭页面,包括关机。任务会在云端自动运行的。

  “按列表选择发布” 发布过程则不可以关闭页面。


2.如何采集图片保存到自己服务器,并替换原图片地址呢?

  采集前设置图片下载存储简数,采集时就会自动下载图片并替换为下载图片后的新地址,发布文章时默认将文章中对应的下载图片一起传输到用户的服务器;

  点击查看图片下载存储简数教程

3.任务一直处于运行状态,但没有更新提示或者没有采集到数据

  可能原因:程序更新维护,服务器重启了。这时你可以先暂停任务,再继续采集就可以了。注意可以不使用停止,停止了的话会重新采集列表详情链接,浪费时间。

4.详情提取器的description和keywords字段如何设置?

  详情提取器的description和keywords字段是获取页面对应的meta标签content属性中的内容,如果使用智能向导创建采集任务,这两个字段是会自动生成的,无需配置;

  I、在详情提取器 【当前字段Xpath】 填写:

  • description字段://meta[@name="description"]

  • keywords字段://meta[@name="keywords"]


  II、在description和keywords字段的 【高级设置】中提取值类型选择 ‘节点属性’,属性值填写 content;


  III、有些页面没有对应的meta标签,description或keywords字段采集内容则为空;

  此时如果想修改为采集页面的内容,而不是采集meta标签内容,先要修改description或keywords字段的提取值类型,改为文本,再去点选要采集的区域;

5.如何采集已删除的数据?

  无法批量采集已经删除的数据,原因是系统会记录已采集过的数据网址(就算已经删除数据),且启动采集默认的是重复数据跳过不采集。

  有两种方法解决:

  I、清空已采集网址

  清空系统的已采集网址记录:【结果数据&发布】==》 【更多操作】 ==》 清空已采集网址 ==》 启动采集即可;

  II、重复数据覆盖采集

  启动任务采集时,重复数据处理选择【覆盖已存在数据】;(采集后建议改回跳过不再采集保存,避免下次重复采集相同数据)

6.进入控制台后经常跳回登录界面解决方法

  如果进入简数控制台之后,每次请求都跳到登录界面,请检查您所在网络IP地址是否不固定,可刷新多次登录页面查看下方的ip地址,或联系管理员QQ:3043176563或3071166977。

7.登录失败,原因绑定用户失败的解决方法?

  当登录进入简数控制台时,提示:登录失败,请重试,原因:绑定用户失败,请重试!

  解决方法,再重新登录一次即可,提示的绑定用户失败信息无需理会。

8.如何获取任务id?

  任务id只有简数管理员有权限查看或复制任务。

  进入任务界面,在左侧上方或者url地址的后面都有任务id:

9.如何删除已采集的数据?

  当采集的数据总存储量(任务采集入库数据量 + 链接段落库段落数量)超过套餐限制,就需要删除已发布或者无用的数据(链接段落),腾出空间继续采集;

  查看当前数据总存储量:在控制台界面点击左侧列表的【账户及套餐余量】,总存储量是包含所有采集任务入库的数据量和链接段落库中的段落数量之和;

  以下是多种删除数据(链接段落)的方法:

I、按照任务删除不要的数据:

  进入某个任务的【结果数据&发布】栏目:

- 可以选择勾上不要的部分数据,然后点击删除按钮;
- 可以按照数据状态(对应左侧已选状态,可选全部,已发布,待发布和发布失败)批量删除;
- 可以直接删除全部数据;

II、任务列表处删除数据:

  点击对应任务数据量列的红色垃圾桶按钮,删除该任务的全部数据;

III、批量删除多个任务的数据:

  在任务列表处选择勾上要删除的任务,然后点击【更多操作】按钮,再点击【删除任务全部数据】;

  提示:直接删除任务,任务里的数据和暂存简数的图片都会被删除的;

IV、删除链接段落

  在【SEO配置管理】--》【链接段落库】,可以删除一个库或者批量删除多个库的段落,还可以进入库中,删除部分选择的段落;

10.快速删除内容中的链接或者图片

  如果是采集前,在详情提取器的字段数据处理设置删除链接或者图片,采集时系统自动处理:

  如果是已采集到的数据,可以在【结果数据&发布】栏目的【批量修改工具】设置,暂时只支持手动 :

11.如何采集已获取链接的文章页内容?

  如果是想零散采集几篇文章,或者文章页的网址是有规律变化(例如数字递增),不需要从列表页获取链接,可以使用采集模式【详情页(零散采集)】,注意记得点击保存,然后只设置详情提取器的采集规则即可;

12.可以采集视频吗?

  简数暂时不支持下载视频或音频文件,只能保留原视频或者采集视频链接;

  保留视频操作:

  打开详情提取器的正文字段设置,点击【HTML标签过滤】栏目,再点击【重置为默认】按钮,然后勾选上video和iframe标签,保存即可;

13.采集的内容有部分乱码解决方法

  一般是采集目标站使用GBK或者GB2312字符编码,系统没识别出来,导致采集的部分内容有乱码。

  解决方法有两种:

I、详情提取器网络配置

  点击详情提取器左下角的 【网络配置】,在弹出窗口的【页面编码】选择 GBK或者GB2312,保存后再测试采集试试;

II、启动采集界面网络配置

  或者在启动采集界面的 【网络配置】里面设置,在弹出窗口的【页面编码】选择GBK或者GB2312,保存后启动采集试试;

14.简数采集图片路径怎么改?

  采集前设置图片下载配置,采集时就会自动下载图片并替换图片的路径。

  例如wordpress暂存简数图片路径会改为:/wp-content/uploads/2020/12/7086696328695099583.jpg

  /wp-content/uploads是wordpress存储图片的目录,2020/12是采集时的年份和月份,7086696328695099583.jpg是系统新生成的下载图片名称(一般是时间戳)。

15.SEO规则执行失败怎么解决?

  SEO规则执行失败,一般是SEO规则设置了某些字段,但是任务中没有对应的字段导致的,一般是以下情况导致的:

正文随机插入动态段落的description字段

  正文随机插入动态段落SEO功能默认是插入别的数据的title和description字段内容,如果执行的任务没有description字段,SEO规则因无法获取到description字段就会提示执行失败。

  解决方法就是删去或者替换掉description字段,再执行SEO规则。

16.采集提示数据入库失败,请重试怎么解决?

  一般是由于某个字段(title字段默认)设置了【采集结果不得为空】,实际这个字段采集内容为空时就会过滤不入库。这个功能一般用于过滤掉一些广告等页面,如果采集规则不通用也会导致的,请检查规则通用性。

  还可能是设置了过滤屏蔽功能导致的,详情可点击查看;

  如果排除以上问题,请检查字段名称是否用了特殊符号。

17.批量修改数据的SEO或xAPI状态

  数据的SEO或xAPI状态可以批量修改,在任务的【结果数据&发布】页面,点击【批量处理工具】按钮 --》 在弹出的窗口,选择【根据条件修改&删除】选项 --》在第二行【将xapi和SEO状态】处选择对应的SEO或xAPI状态,再点击【执行修改】按钮即可;


简数导航: 简数采集器   简数控制台

results matching ""

    No results matching ""