简数导航: 简数采集器   简数控制台

列表页

  大多数网站都是以列表页详情页的数据层次结构进行组织的,例如我们进入大部分新闻频道,有很多标题链接,这可认为是列表页。点标题链接后进入的便是详情页。

  列表页:指栏目或目录页面,一般包含有多个标题链接。如:网站首页或栏目页面都是列表页。

  对于数据采集,列表页最主要作用是:通过列表页来获取多个详情页的链接。

列表页例子:

简数采集器中,使用“列表提取器”来配置提取详情页链接:

  列表提取器配置一般有3个步骤:

  1. 点击“重置当前字段”按钮,重新开始配置;
  2. 用鼠标点击要采集的链接(标题),只需点击两个不同链接,系统便会自动选中其它相似的链接;
  3. 检查页面左下角“数据预览” 下方是否列出了文章链接地址(相对的或绝对链接都行),如果有则配置正确,如果没有,点选范围再调整大一点试试,正确的情况是【当前字段Xpath】结尾以a或者a/kds结尾。

  详细操作见:列表提取器


简数导航: 简数采集器   简数控制台

results matching ""

    No results matching ""