简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

列表翻页配置(批量网址采集)

  要大批量采集文章,它们一般都被放在很多列表页中(翻页),而这些列表页的链接地址一般都是有规律的(等差递增1,2..n,或是字母a-z变化),为了采集到全部列表页,就可使用“按规则生成网址”来批量生成,并作为采集的列表入口网址。


列表翻页配置方式:

  1. 批量生成网址
  2. 手动输入网址


1. 批量生成网址

  场景:采集列表页,一般都有很多页(翻页),页面链接一般都是有规律的(等差递增,或是字母a-z变化),
  那么就可使用“按规则生成网址”来批量生成要抓取的入口网址。

  示例1:

  第一页是:https://www.域名.com/sitehome/p/1

  第二页是:https://www.域名.com/sitehome/p/2

  第二页是:https://www.域名.com/sitehome/p/3

  分析得出,最后的数字是页码,每次加1递增,这时我们可以把数字替换为参数#sd_pageNo# (相当于一个变量):

  1. 删掉数字,鼠标放在要插入的位置,点击右边的蓝色字体 ‘参数#sd_pageNo#’,就会自动填写 ‘#sd_pageNo#’,不用手打输入的;

  2. 步长指的是数字的递增间隔,例如步长填写2,网址末尾的数字变为1,3,5,7递增;

  3. 保存生成网址;

如下图:


  示例2:

  上面是按数字生成,还可以“按指定一组值”来生成,即可以使用自定义的一组字符串来生成网址,中间用,分隔开(半角逗号,即英文输入法的)。

  备注:

  • 列表页最终生成总数不能超过3000个,如果需更多,可以拆分到另一个任务(复制任务)。
  • 一个批量生成网址规则生成的页数不能超过2000个,可以拆分成多个批量生成网址规则。


2. 手动输入网址

这个比较简单,不需要生成,直接粘贴多个网址即可,多个以回车换行分隔开。如下图:

  下图为输入零散的3个网址:


简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

results matching ""

    No results matching ""