简数导航:简数首页 简数控制台 采集入门教程 数据导出发送 AI写作生成
父、子任务关联采集
一般情况下,不需要使用父子任务采集模式!!!
该模式的主要典型应用场景:只有当目标数据(例如缩略图、发布日期等)仅存在于列表页,而详情页内缺失时,才有必要启用。如果所需数据在详情页中已完整包含,则无需使用此模式,以免增加任务复杂度。
详细使用步骤:
1. 使用父任务采集列表项信息
父任务负责批量采集列表页中每个项目的详情页网址链接和概要信息(如缩略图、日期等),其中网址是提供给子任务采集对应的详情页内容,并作为数据关联唯一标识。
具体配置方法如下:
1)启用 "列表页|表格数据" 模式
在采集任务列表【创建采集任务(高级模式)】-> 采集模式选择【列表页|表格数据(单页多数据)】-> 输入任务名和采集网址,保存 -> 进入列表提取器配置采集规则。
2)圈选数据区块
打开列表提取器,连续选择两个具有相同结构的数据区块,系统会自动识别并选中页面上所有类似的区块,将每一个区块作为一条独立的数据进行采集,比如列表中的一项(或表格中一行)为一条数据。
配置完成,保存,点击 "第2步:详情提取器" 按钮进入字段规则配置。
3)提取区块中的信息
从数据区块中,确定要提取的特定信息(如缩略图、发布日期等),每个信息对应一个独立的数据字段。
首先配置采集列表项的网址链接(必要,作为关联标识):
点击切换到url
字段,勾上【该字段值唯一】和【只获取网址】选项 -> 选择第一个列表项的标题作为采集范围 -> 数据预览出现对应详情页链接,保存。
注意:通常链接位于标题或整个列表项,其Xpath值结尾应为a
或a/kds
。
接着以采集缩略图为例:
点击切换到content字段,还是选择第一个列表项的缩略图片作为采集范围(其Xpath值结尾应为img
或img/kds
)-> 打开content字段数据处理,勾上【只采集图片链接】,保存 -> 数据预览显示相应的缩略图地址。
其余目标字段请参照上述方法,逐个完成规则配置,无需采集的字段可留空或删除,最后务必保存(页面右上角)。
父任务采集规则配置完成,先不启动进行采集,由子任务控制触发。
2. 使用子任务采集详情内容,引用父任务信息
子任务根据父任务提供的链接,逐个抓取对应的详情页内容(如标题、正文、标签等),并引用父任务的对应信息,合并生成一条条完整数据,通过网址实现数据关联。
具体配置方法如下:
1)子任务启用 "详情页" 模式
在采集任务列表【创建采集任务(高级模式)】-> 采集模式选择【详情页(单网页:零散、批量或无限循环)】-> 输入任务名和一个详情页网址(作为样本模板),保存 。
2)关联父任务配置
任务基本信息处,点击【从其它任务获取网址】,打开关联父任务配置 -> 先勾上【总是先运行父任务】,即当子任务启动运行时,会先执行父任务,完成后再自动运行当前子任务采集 -> 选择父任务和网址来源字段(即父任务的url
字段,作为父子任务数据关联合并的标识),保存。
3)详情页采集规则配置
打开详情提取器,照常完成详情页内容采集配置:
可视化操作界面,通过鼠标点选快速自定义采集多种目标信息(如标题、正文、标签、关键词等)。
详细使用说明可看详情提取器-内容采集规则配置。
4)引用父任务信息
以引用缩略图为例,添加新字段并改名为thumb_img
-> 打开字段处理配置,选择【高级提取】-> 提取类型选择【从父任务获取数据】-> 父任务字段选择content
(前面示例使用该字段采集缩略图地址),保存。
特别注意:如需下载链接地址对应的缩略图,请勾上【需下载图片】选项。
3. 在子任务启动采集
父、子任务采集规则都完成配置后,在子任务启动采集,会先执行关联的父任务运行采集,完成再自动运行当前子任务进行采集与合并父任务数据。
提示:自动定时采集、发布、图片下载、SEO规则处理、第三方API执行等操作都在子任务配置。
1)父任务采集结果:
2)子任务采集与合并结果
如果需对接导出发送缩略图,发送目标第二步请注意选择对应的新字段。(无新字段选择解决方法)