简数导航: 简数采集器   简数控制台  

内容过滤排除(设置屏蔽词)

  可根据采集区域的内容或文本长度,判断数据是否采集入库。

详细使用步骤:

  1. 采集结果不得为空

  2. 内容过滤

  3. 文本长度过滤


1. 采集结果不得为空

  作用是当该字段采集内容为空时,此数据不采集入库,title字段默认启用该功能,可过滤不同结构的广告或专题页面;

  勾上是生效,一般在常见数据处理设置(相关联的,只设置一处即可),记得保存;


2.内容过滤

  可设置当字段采集结果不得包含或必须包含某些内容(例如词语,短语等)时,数据是否采集入库;

  • 内容不得包含:填写文本词语,如果在该字段内容中出现了,这条数据就不会采集入库了;

      指定多个时用分隔符#_#隔开(例:关键词1#_#关键词2#_#关键词3),只要包含其中一个,则不要该记录(即指定的不要)。

  • 内容必须包含:填写文本词语,如果在该字段内容中出现了,就采集入库,反之没出现则不入库;

      指定多个时用分隔符#_#隔开,如果包含其中任何一个,则要该记录(即指定的要)。

  • 内容过滤类型:

    I、【内容不得包含】和【内容必须包含】只设置其中一个功能时,选择【满足其中一个条件即可】(默认); II、【内容不得包含】和【内容必须包含】同时生效,选择【所有条件都必须满足】;

  注意:设置内容过滤,建议同时启用采集结果不得为空,因为字段若为空,系统不会进行内容过滤,会直接采集入库;


3.文本长度过滤

  可设置当该字段采集内容文本长度小于、大于、等于或不等于X(数字)个字符时,数据不采集入库;(默认不启用)

  注意:1个汉字或英文字母或数字都是计1个字符;


简数导航: 简数采集器   简数控制台

results matching ""

    No results matching ""