简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

列表提取器(网址采集规则)

  列表提取器主要用于提取多个详情页链接(即设置网址采集规则),配置主要有3个步骤:

  1. 点击“重置当前字段”按钮,清除已有的配置,重新开始配置;
  2. 用鼠标点击要采集的链接(标题),只需点击两个不同链接,系统便会自动选中其它相似的链接;
  3. 检查页面左下角“数据预览” 下方,如果列出了相应的文章链接地址则配置正确(缺少域名的相对链接也是正确的),如果没有,点选范围尝试扩大一点,正确的情况是【当前字段Xpath】结尾以a或者a/kds结尾。

网址采集配置结果示例:

详细使用步骤:

  1. 清除旧配置
  2. 在页面上点选要采集的链接
  3. 列表页配置常见问题及解决


1. 清除旧配置

  智能向导创建任务过程中或者任务创建完成后,如果网址采集规则不正确,那么可以打开“列表提取器”进行修改。

  在列表提取器右上方点击 【重置当前字段配置】按钮,点击 【OK】,清除已有的配置:


2. 在页面上点选要采集的链接

  用鼠标点击要采集的链接(标题),只需点击两个不同链接,系统便会自动选中其它相似的链接。

  点选两个后,检查页面左下角“数据预览” 下方是否列出了文章链接地址(相对的或绝对链接都行),如果有,则配置正确,如果没有,需要再点选,直到出现链接。(若无链接出现,请查看列表页配置常见问题及解决

(可选)网址采集规则通用性测试:如果任务配置了采集多个列表页面(如翻页),那么可点击‘典型列表页网址’ 的输入框,就会出现其它列表页网址的下拉列表,随便选择一两个不同的链接,即可进行。

高级配置说明:列表提取器只能配置一个url字段,并默认勾选上 ‘只获取网址’ 和 ‘自动选中类似元素’ 功能。(一般无需修改,使用系统默认配置即可)


列表页配置常见问题及解决

I、点选不出来链接,怎么办?

  解决方法主要分四种情况:

  • 重新选择,移动变化点选的区域,缩小或者放大。或者注意变通,选择其它位置达到相同的目的。如列表中有“阅读全文”链接;

  • 手动修改“当前字段xpath”:列表详情链接xpath一般最后都是/a,或者a/kds 。如果看到不是这样的,可以把最后其它的删除。(/kds这个删除或保留都不影响);

  • 如果需要的区域内容为空,那么可以试试勾选“使用JS动态数据”来动态加载页面;

  • 列表提取器获取特殊链接网址(如在onclick属性),点击查看详细教程

  • 找管理员协助解决:QQ:2926881910、3071166977、3043176563;

II、列表提取器的入口?

  列表提取器的入口,任务基本信息页面的入口;


简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

results matching ""

    No results matching ""