简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

列表页获取到多余网址链接解决方法

  列表页提取器智能获取的网址链接,由于采集源网站的代码结构等问题,可能会出现多余网址链接也被选中,例如分类栏目,友情链接,推荐热门文章的网址链接等。

  解决方法如下:

1. 过滤不采集

  获取到多余网址链接可以忽略不管,只要在详情页提取器选择正确的文章页网址作为模板配置,会自动过滤掉这些不符合采集规则的多余网址页面,因为title字段(标题字段)默认设置采集结果不得为空,采集时会过滤掉没有文章标题的页面。


2. Xpath精准获取

  如果必须要精准获取列表页中的文章网址链接,可以手写Xpath来精准获取(Xpath常用语法教程)。

results matching ""

    No results matching ""