简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

列表页

  大多数网站都是采用列表页详情页的数据层次结构来组织信息,例如,新闻频道页面展示了多个资讯标题链接,这类页面可视为列表页,通过点击标题链接,可以访问包含详细内容的新闻详情页。

  列表页:指分类栏目或目录等页面,通常包含多个标题链接。如:网站首页或分类栏目页面都是列表页。

  对于数据采集,列表页的主要作用是:通过列表页获取多个详情页的链接。

列表页例子:

简数采集器中,使用“列表提取器”来配置提取详情页链接:

  列表页提取器配置通常包括三个步骤:

  1. 点击“重置当前字段”按钮,清除已有的配置,重新开始配置;
  2. 使用鼠标点击要采集的链接(通常为标题),只需点击两个不同链接,系统便会自动选中其他相似的链接;
  3. 检查页面左侧的 “数据预览” ,如果列出了相应的文章链接地址(无域名的相对链接也是有效的),则说明配置正确。如果未列出链接,可以尝试扩大或缩小链接的点选区域,通常【当前字段Xpath】的值结尾为aa/kds才是正确的。

  详细操作见:列表提取器(网址采集规则)


简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

results matching ""

    No results matching ""