简数导航: 简数采集器   简数控制台

数据汇总库创建和使用

  数据汇总库可以汇集多个任务的采集数据,方便做统一处理分析、导出发送等,一般适合任务数量较多的情况,无需每个任务都单独去设置导出发送配置,仅需在数据汇总库做集中式的一次设置或调整即可,非常方便快捷和高效。

使用步骤:

  1. 创建数据汇总库
  2. 导入数据到汇总库

  3. 定时自动导出发送


1. 创建数据汇总库

  在简数采集器控制台左侧菜单列点击【采集任务管理】 --》点击【数据汇总库】,进入汇总库管理页面 --》点击【+创建汇总库】按钮

进入汇总库基本信息页面,在【汇总库名】处填写自定义的名称,最后保存;

  注意:每个数据汇总库存储总数据量不能超过8万条;


2. 导入数据到汇总库

  数据汇总库的数据来源是采集任务或其他汇总库的数据,数据汇总库本身不支持采集功能的。

  数据汇总库只支持导入数据中的标准字段(任务创建时默认生成):     爬取时间、原文链接、title、content、pubData、author、category、tag、description、keywords

  数据中用户自定义新增的字段,翻译和第三方API接口功能生成的新字段皆暂时不能导入汇总库,会被忽略;

I. 手动导入数据

  进入某个数据汇总库,点击【数据处理&导出发送】栏目 --》点击【导入采集任务数据】按钮 --》 选择要导入的采集任务(可多选),配置选项,最后点击导入按钮,等一会再刷新页面即可。

  选项详解:

  • 重复数据处理:默认是跳过不导入,根据数据网址URL去重的,可选覆盖已存在数据,插入新数据(即直接插入数据到汇总库,不判断是否有重复数据);

  • 源数据导入方式:

    • 复制导入(默认):导入源采集任务中的数据保留,复制数据导入到汇总库;
    • 移动导入:导入源采集任务中的数据会被删除,移动数据导入到汇总库,注意导入后不支持恢复数据回到导入源采集任务;


II. 自动导入数据

  进入一个采集任务,点击【自动化配置】栏目 --》勾上【自动导入汇总库】 --》 选择要导入的数据汇总库,再配置可选项,最后切记要点击下方的保存按钮,该任务每次采集数据完成后,就会自动导入数据到对应的数据汇总库。

  选项详解:

  • 重复数据处理:默认是跳过不导入,根据数据网址URL去重的,可选覆盖已存在数据,插入新数据(即直接插入数据,不判断是否有重复数据);

  • 源数据导入方式:

    • 复制导入(默认):导入源采集任务中的数据保留,复制数据导入到汇总库;
    • 移动导入:导入源采集任务中的数据会被删除,移动数据导入到汇总库,注意导入后不支持恢复数据回到导入源采集任务;


III. 导出到其他汇总库

  可将数据汇总库的数据导出到其他数据汇总库。

  进入某个数据汇总库,点击【数据处理&导出发送】栏目 --》点击【导出到其他汇总库】按钮 --》 选择要导出到的目标数据汇总库(支持多选),配置选项,最后点击执行导出按钮。

  【每个库导入数量】选项:可以设置导出的数据数量,如果导出到多个汇总库(例A和B两个库),每个目标汇总库会对应导入设置数量的数据(例设置5条,A和B库都会导入5条数据,一共10条数据),且导入的数据不相同不重复。


3. 定时自动导出发送

  进入某个数据汇总库,点击【自动化配置】栏目 --》勾上【自动发送】按钮 --》点击页面右上方的【定时发送配置&启动】按钮,进入定时配置界面 --》勾上【是否启用】,配置好定时方式和时间,点击保存,再点击【启动|定时】按钮 --》回到自动化配置界面,选择对应的导出发送目标,核实其他配置选项,最后切记点击下方的【保存】按钮。

  提示:如果发送目标过多,可以使用目标模版功能(可自定义组合多个导出发送目标的集合,配置一次即可多次重复使用),在自动化配置页面的【目标来源】选择【使用目标模板】。


简数导航: 简数采集器   简数控制台

results matching ""

    No results matching ""