简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  AI写作生成

采集JSON数据内容

  简数采集器支持可视化采集JSON格式页面中的数据,自动提取目标字段并智能去重。

  提示:若只需提取JSON中的详情网址,并采集其页面内容,请使用提取Json数据中的网址方法。

详细使用步骤:

  1. 启用JSON数据源采集模式
  2. JSON数据提取规则配置


1. 启用JSON数据源采集模式

  在采集任务列表【创建采集任务(高级模式)】-> 填写任务名和采集起始网址 -> 选择【Json数据源】采集模式,保存。


2. JSON数据提取规则配置

  在简数采集器,只需点击可视化数据树即可完成JSON数据提取规则的配置。

  根据JSON数据结构可分为两种提取配置方式:键值对默认形式字段和值分离形式

1)键值对默认形式

  默认形式适用于常规JSON键值对数据结构采集,即:字段名: "内容值"

  操作步骤:

        (1)在任务基本信息处,点击【JSON提取器(采内容)】进入提取规则配置;

        (2)在可视化JSON数据树,选择包含要采集数据的节点(必须Array类型),选中后为蓝色底框;

        (3)点击右侧【填到“提取数据的JSON表达式”】,自动填充到上方对应选项框;

        (4)【要提取的字段名】可点击右侧的 "获取生成字段",自动获取节点内的全部字段名,也可手动输入目标字段名;

        (5)【判断数据重复的字段名】从上方 "要提取的字段名" 的已有字段中选取,建议不超过2个(多个用逗号,分隔);

  配置完成如下图所示,系统采集时自动化遍历获取每条数据中的预设字段数据值。

  JSON数据源采集结果。


2)字段和值分离形式

  当JSON数据的字段名和内容值分布在不同节点时,应使用字段和值分离形式采集。

  如示例图,字段名在fields数组节点,数据值在items数组节点。

  操作步骤:

        (1)在可视化JSON数据树,选择包含要采集数据字段名的节点(必须Array类型),选中后为蓝色底框;

        (2)点击右侧【填到“提取字段的JSON表达式”】,自动填充到上方对应选项框;

        (3)选择包含要采集数据内容值的节点(必须Array类型);

        (4)点击右侧【填到“提取数据的JSON表达式”】,自动填充到上方对应选项框;

        (5)【要提取的字段名】点击右侧的 "获取生成字段",自动获取节点内的全部字段名;

        (6)【判断数据重复的字段名】从上方 "要提取的字段名" 的已有字段中选取,建议不超过2个(多个用逗号,分隔);


简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

results matching ""

    No results matching ""