批量网址抓取配置

  要大批量采集的文章,它们一般都被放在很多列表页中(翻页),而这些列表页的链接地址一般都是有规律的(等差递增1,2..n,或是字母a-z变化),为了采集到全部列表页,就可使用“按规则生成网址”来批量生成,并作为采集的列表入口网址。


详细使用步骤:

  1. 批量生成网址
  2. 手动输入网址


1. 批量生成网址

  场景:采集列表页,一般都有很多页(翻页),页面链接一般都是有规律的(等差递增,或是字母a-z变化),
  那么就可使用“按规则生成网址”来批量生成要抓取的入口网址。

  示例1:

  第一页是:https://www.cnblogs.com/sitehome/p/1

  第二页是:https://www.cnblogs.com/sitehome/p/2

  第二页是:https://www.cnblogs.com/sitehome/p/3

  分析得出,最后的数字是页码,每次加1递增,这时我们可以把数字替换为参数#sd_pageNo# (相当于一个变量):

  1. 删掉数字,鼠标放在要插入的位置,点击右边的蓝色字体 ‘参数#sd_pageNo#’,就会自动填写 ‘#sd_pageNo#’,不用手打输入的;

  2. 步长指的是数字的递增间隔,例如步长填写2,网址末尾的数字变为1,3,5,7递增;

  3. 保存生成网址;

如下图:


  示例2:

  上面是按数字生成,还可以“按指定一组值”来生成,即可以使用自定义的一组字符串来生成网址,中间用,分隔开(半角逗号,即英文输入法的)。


</sapn>

2. 手动输入网址

这个比较简单,不需要生成,直接粘贴多个网址即可,多个以回车换行分隔开。如下图:

  下图为输入零散的3个网址:


简数导航: 简数采集   简数控制台   如何使用简数SEO工具(推荐)   微信公众号文章采集   今日头条采集  

results matching ""

    No results matching ""