简数导航:简数首页 简数控制台 采集入门教程 数据导出发送 采集翻译
数据处理设置(采集前)
简数采集器启动采集前,可以预设数据处理,采集时自动执行对应的数据处理,主要有多余链接处理、文本替换、提取内容、数据过滤、HTML标签清除等等。
常用的数据处理如下:
1 文本替换
把内容中指定的字符替换为需要的字符,若是删除则替换为空即可。
支持正则表达式,勾上后面的使用正则。
常用的正则表达式:
- 去除文本的样式:
style='.*?'
- 删除一句话:
句首词.*?[。.]
- 删除一段话:
段首词.+
- 删除文末多余内容:
多余内容开头词[\s\S]+
2 数据内容过滤
根据采集内容中包含或不包含指定字符、文本长度、图片下载失败数量等条件,判断是否过滤数据不采集入库。
3 文本截取
按照开始和结束字符,对内容进行截取,支持正则表达式。
4 正则替换、提取
使用强大的正则表达式,提取或替换匹配到的内容。
简数采集器提供常见的提取正则表达式(不懂正则语法也可轻松使用),例如提取内容中的日期、数字、网址等等。
5 图片、链接删除与保留
可快速删除全部图片或链接,也可精准删除指定位置的图片和链接。
图片处理可以设置仅保留前几张或最后几张图片。
6 添加前后缀
在采集内容前后缀添加指定内容,可以是含有html标签的文本内容。
支持引用其他字段的内容,引用格式为: #[xxx]#
,例如#[title]#
。
7 清除HTML标签
可清除不保留指定的HTML标签,例如div、hr、img等。
未勾上的标签即不保留,只清除对应HTML标签,标签中的文本内容保留。