简数导航:简数首页 简数控制台 采集入门教程 数据导出发送 采集翻译
导入任务数据到汇总库
数据汇总库的数据主要来源:从采集任务导入、其他汇总库导入,从文件导入数据(支持Excel、Txt、Html、Zip等格式) 。
注意:数据汇总库本身不支持采集功能。
各导入方式说明:
1. 从采集任务导入
将采集任务的数据导入到汇总库,支持手动导入和自动导入。
1-1)导入数据格式
导入汇总库的任务数据格式,支持以下的标准字段(任务创建时默认生成):
爬取时间、原文链接、title、content、pubData、author、category、tag、description、keywords
采集任务数据中自定义新增的字段,翻译和第三方API接口功能生成的字段皆暂时不能导入汇总库,会被忽略;
1-2)手动导入数据
进入一个数据汇总库,点击【数据处理&导入导出发送】栏目 --》点击【导入采集任务数据】按钮 --》 选择要导入的采集任务(可多选),配置选项,最后点击导入按钮,等一会再刷新页面即可。
选项详解:
重复数据处理:默认是跳过不导入,根据数据网址URL去重,可选覆盖已存在数据,插入新数据(即直接插入数据到汇总库,不判断是否有重复数据);
源数据导入方式:
- 复制导入(默认):导入源采集任务中的数据保留,复制数据导入到汇总库;
- 移动导入:导入源采集任务中的数据会被删除,移动数据导入到汇总库,注意导入后不支持恢复数据回到导入源采集任务;
1-3)自动导入数据
进入一个采集任务,点击【自动化配置】栏目 --》勾上【自动导入汇总库】 --》 选择要导入的数据汇总库,再配置可选项,最后切记要点击下方的保存按钮,该任务每次采集数据完成后,就会自动导入采集数据到对应的汇总库。
选项详解:
重复数据处理:默认是跳过不导入,根据数据网址URL去重,可选覆盖已存在数据,插入新数据(即直接插入数据,不判断是否有重复数据);
源数据导入方式:
- 复制导入(默认):导入源采集任务中的数据保留,复制数据导入到汇总库;
- 移动导入:导入源采集任务中的数据会被删除,移动数据导入到汇总库,注意导入后不支持恢复数据回到导入源采集任务;
2. 从其他汇总库导入
可将汇总库的数据导出到其他汇总库。
进入某个数据汇总库,点击【数据处理&导入导出发送】栏目 --》点击【导出到其他汇总库】按钮 --》 选择要导出到的目标数据汇总库(支持多选),配置选项,最后点击执行导出按钮。
【每个库导入数量】选项:可以设置导出的数据数量,如果导出到多个汇总库(例A和B两个库),每个目标汇总库会对应导入设置数量的数据(例设置5条,A和B库都会导入5条数据,一共10条数据),且导入的数据不相同不重复。