简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

列表页

  大多数网站都是以列表页详情页的数据层次结构进行组织的,例如我们进入大部分新闻频道网页,有很多资讯标题链接,这个页面可认为是列表页。鼠标点击标题链接后进入的便是详情页。

  列表页:指栏目或目录页面,一般包含有多个标题链接。如:网站首页或栏目页面都是列表页。

  对于数据采集,列表页最主要作用是:通过列表页来获取多个详情页的链接。

列表页例子:

简数采集器中,使用“列表提取器”来配置提取详情页链接:

  列表页提取器配置一般有3个步骤:

  1. 点击“重置当前字段”按钮,清除已有的配置,重新开始配置;
  2. 用鼠标点击要采集的链接(标题),只需点击两个不同链接,系统便会自动选中其它相似的链接;
  3. 检查页面左下角“数据预览” 下方,如果列出了相应的文章链接地址则配置正确(缺少域名的相对链接也是正确的),如果没有,点选范围尝试扩大一点,正确的情况是【当前字段Xpath】结尾以a或者a/kds结尾。

  详细操作见:列表提取器(网址采集规则)


简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

results matching ""

    No results matching ""