简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

数据处理设置(采集前)

  简数采集器启动采集前,可以预设数据处理,采集时自动执行对应的数据处理,主要有多余链接处理文本替换提取内容数据过滤HTML标签清除等等。

  常用的数据处理如下:

1 文本替换

  把内容中指定的字符替换为需要的字符,若是删除则替换为空即可。

  支持正则表达式,勾上后面的使用正则。

  常用的正则表达式:

  • 去除文本的样式:style='.*?'
  • 删除一句话:句首词.*?[。.]
  • 删除一段话:段首词.+
  • 删除文末多余内容:多余内容开头词[\s\S]+


2 数据内容过滤

  根据采集内容中包含或不包含指定字符、文本长度、图片下载失败数量等条件,判断是否过滤数据不采集入库。


3 文本截取

  按照开始和结束字符,对内容进行截取,支持正则表达式。


4 正则替换、提取

  使用强大的正则表达式,提取或替换匹配到的内容。

  简数采集器提供常见的提取正则表达式(不懂正则语法也可轻松使用),例如提取内容中的日期、数字、网址等等。


5 图片、链接删除与保留

  可快速删除全部图片或链接,也可精准删除指定位置的图片和链接。

  图片处理可以设置仅保留前几张或最后几张图片。


6 添加前后缀

  在采集内容前后缀添加指定内容,可以是含有html标签的文本内容。

  支持引用其他字段的内容,引用格式为: #[xxx]# ,例如#[title]#


7 清除HTML标签

  可清除不保留指定的HTML标签,例如div、hr、img等。

  未勾上的标签即不保留,只清除对应HTML标签,标签中的文本内容保留。


简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

results matching ""

    No results matching ""