简数导航:简数首页 简数控制台 采集入门教程 数据导出发送 采集翻译
列表页
列表页是内容的"目录"——比如新闻首页、分类栏目、博客文章列表、商品搜索结果页。它就像一本书的目录,汇集了大量内容的入口。
为什么需要列表页?
网页采集主要分为两步:
第一步:找链接 ➜ 访问列表页,把所有详情页的网址链接收集起来;
第二步:取内容 ➜ 逐一访问这些链接,提取标题、正文、作者等信息
如何配置列表页提取?
在简数采集器中,使用 “列表提取器” 来配置提取详情页链接:
列表页提取器配置通常包括三个步骤:
- 重置配置:点击 “重置当前字段” 按钮,清除已有配置,重新开始配置;
- 点选链接:用鼠标点击要采集的链接(通常为标题),只需点击两个不同的链接,系统便会自动选中其他相似的链接;
- 检查结果:查看页面左侧的 “数据预览” 区,如果列出了相应的文章链接地址(不带域名的相对链接同样有效),则说明配置正确。
如果未显示链接,可尝试调整链接的点选范围(扩大/缩小区域),正常情况下,【当前字段Xpath】的值应以a或a/kds结尾。
详细操作请查看:列表提取器(网址采集规则)