一 采集入门教程
一些概念:
大多数网站都是以列表页和详情页的层次结构进行组织的,例如我们进入某新闻频道,有很多标题链接,这可认为是列表页。点标题链接后进入的便是详情页。
而使用数据采集工具一般目的:大批量地获取详情页里面的具体内容数据。
列表页:指栏目或目录页面,一般包含有多个标题链接。如:网站首页或栏目页面都是列表页。主要作用:通过列表页可获取多个详情页的链接。
详情页:包含具体内容的页面,如一篇网页文章,里面含有:标题,作者,日期,正文内容,标签等。
开始,请先登录进入“简数控制台";
详细使用步骤:
第一步:创建采集任务
点击左侧菜单按钮“创建采集任务”,输入采集任务名和要采集的”列表页“网址,如:https://www.域名.com/
(这里首页即作为列表页:内容含有多个详情页即可),可选项【典型详情页网址】建议填上。
如下图:
输入后点击 ”下一步“
第二步:完善列表页的智能抽取结果(可选)
系统会先采用智能算法获取需要采集的详情页链接(多个),用户可以双击打开检查,如果不是想要的数据,可以点击“列表提取器”进行手动指定,只需要在可视化界面上用鼠标点击。
智能获取结果如下图:
另外:上面结果中,系统也智能发现了翻页规则,用户可以设置要采集多少页。也可以稍后在任务中的【基本信息&入口网址】--》【按规则生成网址】项中进行配置。
列表提取器 打开后如下图:
第三步:完善详情页的智能抽取结果(可选)
上一步获取了多个详情页链接后,继续下一步,系统会使用其中一个详情页链接来智能抽取详情页数据(如:标题,作者,日期,内容,标签等)
详情页智能抽取结果如下:
如果智能抽取的内容不是想要的,那么可以打开【详情提取器】进行修改。
第四步:启动运行
完成后,即可启动运行,进行数据采集了:
采集后的数据结果,在该采集任务的【结果数据&导出发送】里面,您可以在这里对数据进行导出发送。
完成,数据采集就这么简单!!!