简数导航:简数首页 简数控制台 采集入门教程 数据导出发送 采集翻译
列表页
列表页:是内容的 “目录” 或 “索引页”,比如新闻网站首页、分类栏目页、博客的文章列表、商品搜索结果页,我们可以从列表页里面提取大量文章(详情页)的网址。
网页采集器的工作主要有两步:
第一步:去列表页,把所有文章的“链接”都找到并收集起来。
第二步:拿着这些链接(详情页网址),一个一个点进去,把里面的“标题”、“正文”、“作者”等信息提取出来。
列表页提取器配置通常包括三个步骤:
- 点击“重置当前字段”按钮,清除已有的配置,重新开始配置;
- 使用鼠标点击要采集的链接(通常为标题),只需点击两个不同链接,系统便会自动选中其他相似的链接;
- 检查页面左侧的 “数据预览” ,如果列出了相应的文章链接地址(无域名的相对链接也是有效的),则说明配置正确。如果未列出链接,可以尝试扩大或缩小链接的点选区域,通常【当前字段Xpath】的值结尾为
a
或a/kds
才是正确的。
详细操作见:列表提取器(网址采集规则)