简数导航:简数首页 简数控制台 采集入门教程 数据导出发送 采集翻译
列表页获取到多余网址链接解决方法
列表页提取器智能获取的网址链接,由于采集源网站的代码结构等问题,可能会出现多余网址链接也被选中,例如分类栏目,友情链接,推荐热门文章的网址链接等。
解决方法如下:
1. 过滤不采集
获取到多余网址链接可以忽略不管,只要在详情页提取器选择正确的文章页网址作为模板配置,会自动过滤掉这些不符合采集规则的多余网址页面,因为title字段(标题字段)默认设置采集结果不得为空,采集时会过滤掉没有文章标题的页面。
2. Xpath精准获取
如果必须要精准获取列表页中的文章网址链接,可以手写Xpath来精准获取(Xpath常用语法教程)。