简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

导入任务数据到汇总库

  数据汇总库的数据主要来源:从采集任务导入、其他汇总库导入,从文件导入数据(支持Excel、Txt、Html、Zip等格式) 。

  注意:数据汇总库本身不支持采集功能。

各导入方式说明:

  1. 从采集任务导入

  2. 从其他汇总库导入


1. 从采集任务导入

  将采集任务的数据导入到汇总库,支持手动导入和自动导入。

1-1)导入数据格式

  导入汇总库的任务数据格式,支持以下的标准字段(任务创建时默认生成):

  爬取时间、原文链接、title、content、pubData、author、category、tag、description、keywords

  采集任务数据中自定义新增的字段,翻译和第三方API接口功能生成的字段皆暂时不能导入汇总库,会被忽略;

1-2)手动导入数据

  进入一个数据汇总库,点击【数据处理&导入导出发送】栏目 --》点击【导入采集任务数据】按钮 --》 选择要导入的采集任务(可多选),配置选项,最后点击导入按钮,等一会再刷新页面即可。

  选项详解:

  • 重复数据处理:默认是跳过不导入,根据数据网址URL去重,可选覆盖已存在数据,插入新数据(即直接插入数据到汇总库,不判断是否有重复数据);

  • 源数据导入方式:

    • 复制导入(默认):导入源采集任务中的数据保留,复制数据导入到汇总库;
    • 移动导入:导入源采集任务中的数据会被删除,移动数据导入到汇总库,注意导入后不支持恢复数据回到导入源采集任务;


1-3)自动导入数据

  进入一个采集任务,点击【自动化配置】栏目 --》勾上【自动导入汇总库】 --》 选择要导入的数据汇总库,再配置可选项,最后切记要点击下方的保存按钮,该任务每次采集数据完成后,就会自动导入采集数据到对应的汇总库。

  选项详解:

  • 重复数据处理:默认是跳过不导入,根据数据网址URL去重,可选覆盖已存在数据,插入新数据(即直接插入数据,不判断是否有重复数据);

  • 源数据导入方式:

    • 复制导入(默认):导入源采集任务中的数据保留,复制数据导入到汇总库;
    • 移动导入:导入源采集任务中的数据会被删除,移动数据导入到汇总库,注意导入后不支持恢复数据回到导入源采集任务;


2. 从其他汇总库导入

  可将汇总库的数据导出到其他汇总库。

  进入某个数据汇总库,点击【数据处理&导入导出发送】栏目 --》点击【导出到其他汇总库】按钮 --》 选择要导出到的目标数据汇总库(支持多选),配置选项,最后点击执行导出按钮。

  【每个库导入数量】选项:可以设置导出的数据数量,如果导出到多个汇总库(例A和B两个库),每个目标汇总库会对应导入设置数量的数据(例设置5条,A和B库都会导入5条数据,一共10条数据),且导入的数据不相同不重复。


简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

results matching ""

    No results matching ""