简数导航:简数首页 简数控制台 采集入门教程 数据导出发送 采集翻译
内容过滤排除(设置屏蔽词)
根据采集内容中包含或不包含指定字符、文本长度、图片下载失败数量等条件,判断是否过滤数据不采集入库。
内容过滤的几种方式:
1. 采集结果不得为空
当该字段采集内容为空时,此数据不采集入库,title字段默认启用该功能,作用是可过滤不同结构的广告或专题页面;
勾上是生效,一般在常见数据处理设置(相关联的,只设置一处即可),记得保存;
2.关键词过滤
可设置某个字段采集结果不得包含或必须包含某些内容(例如词语,短语等)时,数据是否采集入库;
内容不得包含:填写文本词语,如果在该字段内容中出现了,这条数据就不会采集入库了;
指定多个时用分隔符
#_#
隔开(例:关键词1#_#
关键词2#_#
关键词3),只要包含其中一个,则不要该记录(即指定的不要)。内容必须包含:填写文本词语,如果在该字段内容中出现了,就采集入库,反之没出现则不入库;
指定多个时用分隔符
#_#
隔开,如果包含其中任何一个,则要该记录(即指定的要)。内容过滤类型:
I、【内容不得包含】和【内容必须包含】只设置其中一个功能时,选择【满足其中一个条件即可】(默认); II、【内容不得包含】和【内容必须包含】同时生效,选择【所有条件都必须满足】;
注意:设置内容过滤,建议同时启用采集结果不得为空,因为字段若为空,系统不会进行内容过滤,会直接采集入库;
3.文本长度过滤
可设置某个字段采集内容文本长度小于、大于、等于或不等于X(数字)个字符时,数据过滤不采集入库。(默认不启用)
注意:1个汉字或英文字母或数字都是计1个字符;
4.图片下载失败过滤
可设置某个字段采集内容中的图片下载失败超过多少个时,数据过滤不采集入库。(默认为0即不启用,通常是在content
字段设置)
注意:使用图片下载失败过滤,要先设置【图片下载配置】功能。