简数导航:简数首页 简数控制台 采集入门教程 数据导出发送 采集翻译
已采集数据处理工具(采集后)
已采集入库的数据支持执行数据处理,比如文本替换,图片删除,链接删除,添加前后缀,Html删除等。
在任务的【结果数据&导出发送】页面,点击【数据处理工具】按钮。
已采集数据处理,一般用于补充处理。建议采集前,在详情提取器配置字段数据处理,采集时自动执行数据处理功能,更完善方便快捷。
采集后支持以下数据处理功能:
1 文本替换
把内容中指定的字符替换为需要的字符,若是删除则替换为空即可,默认是对content字段内容进行数据处理。
支持正则表达式,勾上后面的使用正则。
- 去除文本的样式:
style='.*?'
- 删除一句话:
句首词.*?[。.]
- 删除一段话:
段首词.+
- 删除文末多余内容:
多余内容开头词[\s\S]+
2 删除图片或链接
快速删除全部图片或链接,可选择是否保留链接中的文本。
3 添加填充内容
可在采集内容前后缀添加指定的内容文本,支持Html。
还可以对采集为空的字段填充内容,可以指定一个固定值,或截取其他字段的部分内容来填充。
4 HTML标签删除
清除指定的HTML标签,例如div、hr、img等。
可选择是否只清除Html标签,标签中的文本内容保留。