简数导航: 简数采集器   简数控制台  

已采集数据处理

  已采集入库的数据支持执行数据处理,比如文本替换,图片删除,链接删除,添加前后缀,Html删除等等。

  在任务的【结果数据&导出发送】页面,点击【数据处理工具】按钮。

  已采集数据处理,一般用于补充处理。建议采集前,在详情提取器配置字段数据处理,采集时自动执行数据处理功能,更完善方便快捷。

采集后支持以下数据处理功能:

1 文本替换(字符替换)

  把内容中指定的字符替换为需要的字符,若是删除则替换为空即可,默认是对content字段内容进行数据处理。

  支持正则表达式,勾上后面的使用正则。


2 图片删除,链接删除

  快速删除全部图片或链接,链接中的文本可选择是否保留。


3 添加填充内容

  可在采集内容前后缀添加指定的内容,支持Html标签。

  还可以对采集为空的字段填充内容,可以指定一个固定值,或截取其他字段的部分内容来填充。


4 HTML标签删除

  清除指定的HTML标签,例如div、hr、img等。

  可选择是否只清除Html标签,标签中的文本内容保留。


简数导航: 简数采集器   简数控制台

results matching ""

    No results matching ""