内容过滤排除(设置屏蔽词)
可根据采集区域的内容或文本长度,判断数据是否采集入库。
详细使用步骤:
1. 采集结果不得为空
作用是当该字段采集内容为空时,此数据不采集入库,title字段默认启用该功能,可过滤不同结构的广告或专题页面;
勾上是生效,一般在常见数据处理设置(相关联的,只设置一处即可),记得保存;
2.内容过滤
可设置当字段采集结果不得包含或必须包含某些内容(例如词语,短语等)时,数据是否采集入库;
内容不得包含:填写文本词语,如果在该字段内容中出现了,这条数据就不会采集入库了;
指定多个时用分隔符
#_#
隔开(例:关键词1#_#
关键词2#_#
关键词3),只要包含其中一个,则不要该记录(即指定的不要)。内容必须包含:填写文本词语,如果在该字段内容中出现了,就采集入库,反之没出现则不入库;
指定多个时用分隔符
#_#
隔开,如果包含其中任何一个,则要该记录(即指定的要)。内容过滤类型:
I、【内容不得包含】和【内容必须包含】只设置其中一个功能时,选择【满足其中一个条件即可】(默认); II、【内容不得包含】和【内容必须包含】同时生效,选择【所有条件都必须满足】;
注意:设置内容过滤,建议同时启用采集结果不得为空,因为字段若为空,系统不会进行内容过滤,会直接采集入库;
3.文本长度过滤
可设置当该字段采集内容文本长度小于、大于、等于或不等于X(数字)个字符时,数据不采集入库;(默认不启用)
注意:1个汉字或英文字母或数字都是计1个字符;