简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

列表页

列表页是内容的"目录"——比如新闻首页、分类栏目、博客文章列表、商品搜索结果页。它就像一本书的目录,汇集了大量内容的入口。

为什么需要列表页?

  网页采集主要分为两步:

  第一步:找链接 ➜ 访问列表页,把所有详情页的网址链接收集起来;

  第二步:取内容 ➜ 逐一访问这些链接,提取标题、正文、作者等信息

如何配置列表页提取?

简数采集器中,使用 “列表提取器” 来配置提取详情页链接:

  列表页提取器配置通常包括三个步骤:

  1. 重置配置:点击 “重置当前字段” 按钮,清除已有配置,重新开始配置;
  2. 点选链接:用鼠标点击要采集的链接(通常为标题),只需点击两个不同的链接,系统便会自动选中其他相似的链接;
  3. 检查结果:查看页面左侧的 “数据预览” 区,如果列出了相应的文章链接地址(不带域名的相对链接同样有效),则说明配置正确。

  如果未显示链接,可尝试调整链接的点选范围(扩大/缩小区域),正常情况下,【当前字段Xpath】的值应以aa/kds结尾。

  详细操作请查看:列表提取器(网址采集规则)


简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

results matching ""

    No results matching ""