简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

无限循环采集

  无限循环采集功能:页面采集过程中,不断收集其它相似链接并加入采集,往往配置一个页面,即可采集站点大部分内容。大幅提高配置效率和采集完整性。

无限循环采集使用步骤如下:

  1. 启用 "详情页" 采集模式
  2. 无限循环采集配置
  3. 采集启动

1. 启用 "详情页" 采集模式

  在采集任务列表【创建采集任务(高级模式)】-> 采集模式选择【详情页(单网页:零散、批量或无限循环)】-> 输入任务名和采集的详情页网址,保存 -> 进入详情提取器配置采集规则。

  无限循环采集一般只需输入一个详情页网址。


2. 无限循环采集配置

  先配置详情页内容采集规则,再配置无限循环采集功能。

1)详情页采集规则配置

  在详情提取器可视化操作界面,自定义选择和处理采集内容,详细说明可看详情提取器-内容采集规则配置

  

2)选取循环的链接

  在详情页提取器,点击【无限点选开关】,点选要采集的详情页链接所在区域(常见的是下一篇文章,相关文章推荐等区域),保存。

  备注:如果不选取采集区域,是获取整个详情页面中的所有链接。

  支持选取多个详情页链接区域,先勾上【区域多选】选项,再逐个点选。

3)启用无限循环采集

  打开页面上方的【无限循环启用配置】,勾上【启用无限循环采集】,保存完成无限循环采集配置。

  无限循环采集功能启用后,采集每个详情页内容时,一并获取页面中的目标链接,添加到下轮采集,一直循环采集到无新增的链接为止。

  无限循环采集配置说明:

  • 每页采集最大链接数:可控制每一个详情页获取的链接最大数量,默认是0为无限制;

  • 任务每次最大采集数:任务每启动采集一次,无限循环采集功能获取的详情链接总数量,默认是0为最大值(20万);


3. 采集启动

  启动任务进行无限循环采集。


简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

results matching ""

    No results matching ""