简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

已采集数据处理

  已采集入库的数据支持执行数据处理,比如文本替换,图片删除,链接删除,添加前后缀,Html删除等。

  在任务的【结果数据&导出发送】页面,点击【数据处理工具】按钮。

  已采集数据处理,一般用于补充处理。建议采集前,在详情提取器配置字段数据处理,采集时自动执行数据处理功能,更完善方便快捷。

采集后支持以下数据处理功能:

1 文本替换

  把内容中指定的字符替换为需要的字符,若是删除则替换为空即可,默认是对content字段内容进行数据处理。

  支持正则表达式,勾上后面的使用正则。

  常用的正则表达式:

  • 去除文本的样式:style='.*?'
  • 删除一句话:句首词.*?[。.]
  • 删除一段话:段首词.+
  • 删除文末多余内容:多余内容开头词[\s\S]+


2 删除图片或链接

  快速删除全部图片或链接,可选择是否保留链接中的文本。


3 添加填充内容

  可在采集内容前后缀添加指定的内容文本,支持Html。

  还可以对采集为空的字段填充内容,可以指定一个固定值,或截取其他字段的部分内容来填充。


4 HTML标签删除

  清除指定的HTML标签,例如div、hr、img等。

  可选择是否只清除Html标签,标签中的文本内容保留。


简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

results matching ""

    No results matching ""