简数导航:简数首页 简数控制台 采集入门教程 数据导出发送 采集翻译
列表页
大多数网站都是以列表页和详情页的数据层次结构进行组织的,例如我们进入大部分新闻频道网页,有很多资讯标题链接,这个页面可认为是列表页。鼠标点击标题链接后进入的便是详情页。
列表页:指栏目或目录页面,一般包含有多个标题链接。如:网站首页或栏目页面都是列表页。
对于数据采集,列表页最主要作用是:通过列表页来获取多个详情页的链接。
列表页例子:
列表页提取器配置一般有3个步骤:
- 点击“重置当前字段”按钮,清除已有的配置,重新开始配置;
- 用鼠标点击要采集的链接(标题),只需点击两个不同链接,系统便会自动选中其它相似的链接;
- 检查页面左下角“数据预览” 下方,如果列出了相应的文章链接地址则配置正确(缺少域名的相对链接也是正确的),如果没有,点选范围尝试扩大一点,正确的情况是【当前字段Xpath】结尾以
a
或者a/kds
结尾。
详细操作见:列表提取器(网址采集规则)