简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

内容分页(鼠标点击三下即可完成配置)

内容分页:指详情页的内容被拆分在多个页面(链接)中,采集时需要进行合并。

具体操作说明:

  1. 分页配置流程
  2. 其他参数配置(可选)
  3. 分页采集限制


1. 分页配置流程

  内容分页配置非常简单,在详情提取器中,鼠标点击三下即可完成配置:(以content字段为例)

  1. 勾选【该字段内容使用了分页】;
  2. 勾选【分页点选开关】 或者点击【分页区域Xpath】的输入框,以便开启进行第3步的操作;
  3. 点选分页链接所在区域。完成!

  详细操作如下图:


2. 其他参数配置(可选)

  点击【更多分页设置】按钮,分页还可以配置其它参数:

  • 分隔符:两个页面内容合并的分隔符;(<br/>标签是换行)
  • 最大分页数量:采集最大分页数量(0则不限制,计数包含首页);
  • 分页链接必须包含字符:仅当所获取的分页链接包含指定字符时,才会被保留并采集,若不包含则过滤;
  • 分页链接不得包含字符:若获取的分页链接包含指定字符,则会被过滤,不予采集。常用于过滤分页中的全部页链接(即填all关键词),避免内容重复出现。


3. 分页采集限制

  分页限制--目前分页链接采集只支持:首页全部列出模式(即其它链接全部在第一个页面展示出)。

  如下图:可以完整采集分页内容;

  如下图:只能采集显示的页数分页内容(1,2,3,4,5,6,11),中间 ... 的页数无法采集到;


简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

results matching ""

    No results matching ""