简数导航:简数首页 控制台 数据导出发送 AI写作生成 开放API文档
"列表网址 + 详情页" 采集模式
获取列表页中所有详情页的链接,再采集每个详情页的内容,一个详情页为一条数据。如新闻列表中仅有标题链接,需跳转到详情页后,才能采集到新闻的详细内容。
详细使用方法:
1、创建采集任务
点击 【创建采集任务】按钮,输入任务名和目标列表页网址,可选项【典型详情页网址】建议填上,完成后【下一步】。
2、完善列表页的智能提取结果(可选)
系统自动采用智能算法获取列表页中的全部详情页链接,正常则继续下一步即可。
可打开列表提取器查看完整配置,或者修改智能生成的采集规则,可视化界面鼠标操作即可,详细操作可看列表提取器-网址采集规则配置。
3、完善详情页的智能提取结果(可选)
系统会使用其中一个详情页链接来智能提取详情页数据(如:标题,作者,日期,内容,标签等)。
可打开详情提取器自定义选择和处理采集内容,可视化界面鼠标点选即可,详细说明可看详情提取器-内容采集规则配置。
默认提取的常用数据字段有:
title(标题),content(内容),pubDate(日期),author(作者),category(分类)
tag(标签),description(描述),keywords(关键字)
第四步:启动运行采集
完成采集规则配置后,即可启动运行,进行数据采集:
采集后的数据结果,在该采集任务的【结果数据&导出发送】,可将数据导出发送。
如需采集更多列表翻页的数据,可在任务【基本信息&批量网址】的 "批量生成网址" 进行配置,详细说明可看 列表翻页配置-批量网址采集。
简数导航:简数首页 简数控制台 数据导出发送 采集翻译 Open API文档