简数导航:简数首页 简数控制台 采集入门教程 数据导出发送 采集翻译
2.1 创建采集任务
采集数据,需先创建采集任务,并定义采集规则(支持鼠标点选式可视化配置)。
创建采集任务提供以下两种模式:
- 智能向导模式(推荐):自动识别网页内容并生成采集规则,适用于
列表网址 + 详情页采集场景; - 高级模式:支持各种特殊网页类型采集,如表格数据、JSON数据采集;
详细使用教程:
1. 创建采集任务(智能向导模式,推荐)
只需输入目标网址,智能向导模式会自动识别网页内容,并生成采集规则,包括:列表页、翻页和详情页(标题、正文、作者、时间、标签等常用字段)
完整操作步骤可查看【文章采集入门教程】
2. 创建采集任务(高级模式)
高级模式一般用于采集各种特殊网页类型,如表格数据、JSON数据采集等。
注意:高级模式任务需自行配置采集规则,系统不会智能生成。
支持多种采集模式:
列表+详情页(默认模式):获取列表页中所有详情页的链接,再采集每个详情页的内容,一个详情页为一条数据。如新闻列表中仅有标题链接,需跳转到详情页后,才能采集到新闻的详细内容。
详情页(单网页:零散、批量或无限循环):根据提供的详情页网址(零散或批量生成),直接采集详情页内容,一个详情页为一条数据。
列表项或表格(同一页面提取多条数据);可直接采集同一页面内的多条数据,列表中的一项(或表格中一行)为一条数据。采集场景如:表格、快讯、导航站、商品等。
JSON或API数据源(数据在Json网址或Api接口中):可视化采集JSON格式页面中的数据,自动提取目标字段并智能去重。
常用字段说明
简数详情提取器默认提供以下常用字段,可自由增删改:
title(标题)、content(内容)、category(分类)、pubDate(日期)、author(作者)、tag(标签)、description(描述)、keywords(关键字)。