简数导航:简数首页 简数控制台 采集入门教程 数据导出发送 AI写作生成
采集JSON数据内容
简数采集器支持可视化采集JSON格式页面中的数据,自动提取目标字段并智能去重。
提示:若只需提取JSON中的详情网址,并采集其页面内容,请使用提取Json数据中的网址方法。
详细使用步骤:
1. 启用JSON数据源采集模式
在采集任务列表【创建采集任务(高级模式)】-> 填写任务名和采集起始网址 -> 选择【Json数据源】采集模式,保存。
2. JSON数据提取规则配置
在简数采集器,只需点击可视化数据树即可完成JSON数据提取规则的配置。
根据JSON数据结构可分为两种提取配置方式:键值对默认形式
与 字段和值分离形式
。
1)键值对默认形式
默认形式适用于常规JSON键值对数据结构采集,即:字段名: "内容值"
。
操作步骤:
(1)在任务基本信息处,点击【JSON提取器(采内容)】进入提取规则配置;
(2)在可视化JSON数据树,选择包含要采集数据的节点(必须Array类型),选中后为蓝色底框;
(3)点击右侧【填到“提取数据的JSON表达式”】,自动填充到上方对应选项框;
(4)【要提取的字段名】可点击右侧的 "获取生成字段",自动获取节点内的全部字段名,也可手动输入目标字段名;
(5)【判断数据重复的字段名】从上方 "要提取的字段名" 的已有字段中选取,建议不超过2个(多个用逗号,分隔);
配置完成如下图所示,系统采集时自动化遍历获取每条数据中的预设字段数据值。
JSON数据源采集结果。
2)字段和值分离形式
当JSON数据的字段名和内容值分布在不同节点时,应使用字段和值分离形式采集。
如示例图,字段名在fields数组节点,数据值在items数组节点。
操作步骤:
(1)在可视化JSON数据树,选择包含要采集数据字段名的节点(必须Array类型),选中后为蓝色底框;
(2)点击右侧【填到“提取字段的JSON表达式”】,自动填充到上方对应选项框;
(3)选择包含要采集数据内容值的节点(必须Array类型);
(4)点击右侧【填到“提取数据的JSON表达式”】,自动填充到上方对应选项框;
(5)【要提取的字段名】点击右侧的 "获取生成字段",自动获取节点内的全部字段名;
(6)【判断数据重复的字段名】从上方 "要提取的字段名" 的已有字段中选取,建议不超过2个(多个用逗号,分隔);