已采集数据处理
已采集入库的数据支持执行数据处理,比如文本替换,图片删除,链接删除,添加前后缀,Html删除等等。
在任务的【结果数据&导出发送】页面,点击【数据处理工具】按钮。
已采集数据处理,一般用于补充处理。建议采集前,在详情提取器配置字段数据处理,采集时自动执行数据处理功能,更完善方便快捷。
采集后支持以下数据处理功能:
1 文本替换(字符替换)
把内容中指定的字符替换为需要的字符,若是删除则替换为空即可,默认是对content字段内容进行数据处理。
支持正则表达式,勾上后面的使用正则。
2 图片删除,链接删除
快速删除全部图片或链接,链接中的文本可选择是否保留。
3 添加填充内容
可在采集内容前后缀添加指定的内容,支持Html标签。
还可以对采集为空的字段填充内容,可以指定一个固定值,或截取其他字段的部分内容来填充。
4 HTML标签删除
清除指定的HTML标签,例如div、hr、img等。
可选择是否只清除Html标签,标签中的文本内容保留。