简数导航:简数首页  控制台  数据导出发送  AI写作生成  开放API文档

"列表网址 + 详情页" 采集模式

  获取列表页中所有详情页的链接,再采集每个详情页的内容,一个详情页为一条数据。如新闻列表中仅有标题链接,需跳转到详情页后,才能采集到新闻的详细内容。

详细使用方法:

  1. 创建采集任务
  2. 完善列表页的智能提取结果(可选)
  3. 完善详情页的智能提取结果(可选)
  4. 启动运行采集


1、创建采集任务

  点击 【创建采集任务】按钮,输入任务名和目标列表页网址,可选项【典型详情页网址】建议填上,完成后【下一步】。


2、完善列表页的智能提取结果(可选)

  系统自动采用智能算法获取列表页中的全部详情页链接,正常则继续下一步即可。

  可打开列表提取器查看完整配置,或者修改智能生成的采集规则,可视化界面鼠标操作即可,详细操作可看列表提取器-网址采集规则配置


3、完善详情页的智能提取结果(可选)

  系统会使用其中一个详情页链接来智能提取详情页数据(如:标题,作者,日期,内容,标签等)。

  可打开详情提取器自定义选择和处理采集内容,可视化界面鼠标点选即可,详细说明可看详情提取器-内容采集规则配置

  

  默认提取的常用数据字段有:

title(标题),content(内容),pubDate(日期),author(作者),category(分类)
tag(标签),description(描述),keywords(关键字)


第四步:启动运行采集

  完成采集规则配置后,即可启动运行,进行数据采集:

  采集后的数据结果,在该采集任务的【结果数据&导出发送】,可将数据导出发送。

  如需采集更多列表翻页的数据,可在任务【基本信息&批量网址】的 "批量生成网址" 进行配置,详细说明可看 列表翻页配置-批量网址采集

简数导航:简数首页  简数控制台  数据导出发送  采集翻译  Open API文档

results matching ""

    No results matching ""