简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

内容过滤排除(设置屏蔽词)

  根据采集内容中包含或不包含指定字符、文本长度、图片下载失败数量等条件,判断是否过滤数据不采集入库。

内容过滤的几种方式:

  1. 采集结果不得为空

  2. 关键词过滤

  3. 文本长度过滤

  4. 图片下载失败过滤


1. 采集结果不得为空

  当该字段采集内容为空时,此数据不采集入库,title字段默认启用该功能,作用是可过滤不同结构的广告或专题页面;

  勾上是生效,一般在常见数据处理设置(相关联的,只设置一处即可),记得保存;


2.关键词过滤

  可设置某个字段采集结果不得包含或必须包含某些内容(例如词语,短语等)时,数据是否采集入库;

  • 内容不得包含:填写文本词语,如果在该字段内容中出现了,这条数据就不会采集入库了;

      指定多个时用分隔符#_#隔开(例:关键词1#_#关键词2#_#关键词3),只要包含其中一个,则不要该记录(即指定的不要)。

  • 内容必须包含:填写文本词语,如果在该字段内容中出现了,就采集入库,反之没出现则不入库;

      指定多个时用分隔符#_#隔开,如果包含其中任何一个,则要该记录(即指定的要)。

  • 内容过滤类型:

    I、【内容不得包含】和【内容必须包含】只设置其中一个功能时,选择【满足其中一个条件即可】(默认); II、【内容不得包含】和【内容必须包含】同时生效,选择【所有条件都必须满足】;

  注意:设置内容过滤,建议同时启用采集结果不得为空,因为字段若为空,系统不会进行内容过滤,会直接采集入库;


3.文本长度过滤

  可设置某个字段采集内容文本长度小于、大于、等于或不等于X(数字)个字符时,数据过滤不采集入库。(默认不启用)

  注意:1个汉字或英文字母或数字都是计1个字符;


4.图片下载失败过滤

  可设置某个字段采集内容中的图片下载失败超过多少个时,数据过滤不采集入库。(默认为0即不启用,通常是在content字段设置)

  注意:使用图片下载失败过滤,要先设置【图片下载配置】功能。


简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

results matching ""

    No results matching ""