简数导航:简数首页 简数控制台 采集入门教程 数据导出发送 采集翻译
无限循环采集
无限循环采集功能:页面采集过程中,不断收集其它相似链接并加入采集,往往配置一个页面,即可采集站点大部分内容。大幅提高配置效率和采集完整性。
无限循环采集使用步骤如下:
1. 选取链接所在区域
在简数采集器任务的详情页提取器,点击【无限点选开关】,然后在可视化区域,点选要采集的详情页链接所在区域(常见的是下一篇文章,相关文章推荐等区域),最后保存。
备注:如果不选取采集区域,是获取整个详情页面中的所有链接。
支持选取多个详情页链接区域,先勾上【区域多选】选项,再一个一个点选即可。
2. 启用无限循环采集
返回详情页提取器页面,点击页面上方的【无限循环启用配置】按钮,在弹出的窗口,勾上【启用无限循环采集】选项,保存完成无限循环采集配置。
启动任务采集后,在采集详情页时无限循环采集功能会获取相应的链接,并发送到待采集队列进行采集。
无限循环采集配置说明:
每页采集最大链接数:可控制每一个详情页获取的链接最大数量,默认是
0
为无限制;任务每次最大采集数:任务每启动采集一次,无限循环采集功能获取的详情链接总数量,默认是
0
为最大值(20万);