字段数据处理配置（采集前，在“详情提取器”中配置）

数据处理主要功能：

图片&链接删除 | 字符替换
HTML标签删除 | 内容填充&随机值、固定值、默认值
常用截取&提取 | 内容过滤排除（设置屏蔽词）
HTML标签过滤 | 高级提取 | 已采集数据处理

1. 图片&链接删除

可快速删除该字段内容中全部或指定位置的图片和链接。

注意：【图片&链接快速删除】只对设置了获取html的字段有效，一般在content字段中使用。

图片删除

支持快速删除该字段内容中全部或指定位置的图片，还支持只保留前面或后面几张图片。

链接删除

支持快速删除该字段内容中全部或指定位置的链接（<a>标签），可选择保留链接中的文本内容，只删除链接。

2. 字符替换

字符替换的几种使用方法：

2-1. 简单字符替换

2-2. 字符正则替换

2-3. 常用的字符正则替换

2-1. 简单字符替换

在【将字符串】列填写要替换掉的值（文本或html标签都支持），在【替换为】列填写要新插入的值；

可自定义添加或删除替换规则，多个替换规则执行顺序是从上到下替换的；

删除字符，是在【替换为】列不填写值，即替换为空；

2-2. 字符正则替换（模糊匹配）

在【将字符串】列填写带有正则语法的表达式，然后勾上使用正则功能即可，注意保存；

正则基础语法可看正则表达式常用语法;

2-3. 常用的字符正则替换

采集的内容中出现一些不需要的额外信息时，如果有共同点就可以使用字符正则替换来删除，下面介绍几种常见的情况。

正则基础语法可看正则表达式常用语法。

I、删除文章末尾内容

采集的文章末尾有额外信息（内容不固定），但是共同点都是某个词固定为开头的，类似（有些有冒号，有些没有，看实际情况的）：

推荐文章：
相关推荐：
编辑推荐；

设置相对应的字符正则替换，格式为固定词[\s\S]+，然后再测试采集查看效果的；

推荐文章：[\s\S]+
相关推荐：[\s\S]+
编辑推荐[\s\S]+

II、删除文章中的一段话

采集的文章中有不要的一段话内容，没有换行且部分内容不固定，但是共同点都是某个词固定为开头的，类似：

简数站推荐：(不固定的商品广告推荐语)
本站为大家提供(不固定的商品广告推荐语)

设置相对应的字符正则替换，格式为固定词.+，然后再测试采集查看效果的；

简数站推荐：.+
本站为大家提供.+

III、删除文章中的样式

如果想清除采集文章中的字体大小，颜色，段落间接等，可以删除style属性。

在字符替换处，点击【将字符串处】的输入框，再点击下方的【删除style属性】按钮，然后勾上使用正则，最后保存即可。

3. HTML标签删除

用于删除HTML标签及其包含内容，可以指定位置和数量，支持保留文本；

常用于删除正文第一个段落（删除前面1个p标签），还有删除最后一个段落（删除最后1个p标签）。

完整使用说明：

3-1. HTML标签删除

3-2. 删除多余内容

3-1. HTML标签删除

HTML标签删除可设置以下属性：

指定删除位置：前面，最后，第几个，倒数第几个，全部；
删除数量：填写数字，如果指定位置选择全部，此处则不用填写；
删除的标签名称：系统提供一些常见的标签，点击选择，支持搜索；
保留文本：勾上则保留标签中的文本，默认不保留；
顺序：支持添加多个标签删除规则，系统自动创建对应的数字顺序，可以自行调整；

注意：HTML标签删除功能生效的前提是，该字段设置了获取Html；

3-2. 删除多余内容

有些正文前面或者后面会添加一些宣传，广告等多余内容，如果在选择采集区域时无法将多余信息和正文分开时，且每篇文章都有一样的多余内容，就可以尝试用删除HTML标签来解决。

I、获取多余内容标签

测试采集，查看数据预览的代码模式；

II、删除HTML标签设置

从预览代码可以看出，只要删除最后两个span标签和最后一个ul标签(ul标签包含多个li标签，所以删除ul更好)即可；

III、采集结果

重新测试采集，查看采集结果；

IV、无标签文本

如果只出现文本，没有对应包裹的标签，可能是系统默认过滤部分不常用的标签导致，可以先设置保留对应标签，再进行删除;

较常见的是div标签，先设置保留div标签，再删除对应div标签；

4. 常用截取&提取

主要功能是使用正则表达式提取或替换匹配的内容。

详细使用方法：

4-1. 常用截取&提取表达式

4-2. 自定义正则表达式

4-3. 前后截取功能

4-1. 常用截取&提取表达式

简数文章采集提供常见的提取和截取正则表达式，不懂正则语法也可轻松使用，只需点击下对应的按钮；

注意：如果没匹配到要保留的内容则该字段会变为空内容，所以需要时才设置；

例子：假设日期和其他信息混在一起，无法通过选择区域分开，这时可使用日期提取功能，记得最后保存：

4-2. 自定义正则表达式

可自定义填写正则表达式提取或替换需要的内容，如果没匹配到内容则该字段为空内容；

将匹配的内容：填写正则表达式，匹配原值中符合条件的所有内容；
替换为：如果不填，会提取匹配的内容；如果填写了，匹配的内容会被填写的值替换，原值其他内容保持不变；
正则捕获组：使用正则捕获语法提取内容（就是匹配括号中的内容会被提取），该处只能提取不能替换；注意：正则捕获只会匹配符合条件的第一个内容，而不是所有都匹配；
多组值分隔符：如果正则捕获组有多个，该值会作为分隔符，默认为空；

注意：如果【字符替换】、【将匹配的内容】和【正则捕获组】同时设置了，【将匹配的内容】先执行，然后【正则捕获组】再执行，最后【字符替换】执行；

4-3. 前后截取功能

可截取开头字符串和结尾字符串之间的内容作为采集内容，一般建议使用鼠标点选自动生成采集规则方式更为方便。

开头字符串(前后截取)：可填写文本，Html代码，正则表达式（需勾上后面的使用正则）；
结尾字符串(前后截取)：可填写文本，Html代码，正则表达式（需勾上后面的使用正则），可为空不填写（即一直截取到所选采集区域结尾）；
过滤部分html标签：默认即可，如果截取内容为空，或者开头结尾字符串中包含html代码（例如含有class，id等属性），去掉不勾选【过滤部分html标签】，才可以成功截取到内容的；
- 不勾上使用【过滤部分html标签】功能，页面的html代码会完整保留下来，包括html标签属性，脚本标签，注释等；

如果无法截取到内容，请检查以下设置：
- I. 字段数据处理的【HTML标签过滤】页面的获取html为勾上使用；
- II. 字段数据处理的【HTML标签过滤】页面的过滤部分html标签为不勾上；
- III. 当前字段xpath值改为/html

备注：如果截取后有多余的内容，可以使用字符替换正则替换删除，例如删除标签属性(class=".*?"和id=".*?")，脚本标签(<script[\s\S]+?</script>)，注释(<\!--[\s\S]+?-->)等；

5. 字段前后填充内容&随机值、固定值、默认值

字段前后可填充内容，也可引用同条数据的其他字段内容，还支持将字段设置为随机值、固定值和默认值。

使用说明：

5-1. 字段前后填充内容

5-2. 引用其他字段内容

5-3. 默认值&固定值&随机值

5-1. 字段前后填充内容

可选择在字段前面或后面添加内容，内容可以是文本和html标签，系统提供两种版权说明供用户方便使用。

5-2. 引用其他字段内容

可引用同一条数据的其他字段采集内容：（示例为content字段引用keywords字段内容）

1. 被引用的字段要在当前设置字段的上面；（例图中keywords字段在设置字段content字段上面，可拖拽调整字段排序）

2. 打开当前设置字段的数据处理，在字段前面或者后面添加被引用字段，引用格式写法为：#[字段名]#；（例打开content字段的数据处理，在字段前面添加#[keywords]#）

3. 保存，测试采集验证正确性和查看效果，支持和文本、html标签等内容搭配使用；

4. 字段引用格式说明: #[xxx]#，其中xxx为字段名，例如#[title]#、#[tag]#等详情提取器已存在的字段，还有特殊字段#[kds_url]#，是指采集源的原文章链接；

提示：调整字段的位置，可以通过拖拽字段来实现。

5-3. 默认值&固定值&随机值

字段内容可以设置为默认值、固定值和随机值。

配置方法如下：

5-3-1. 字段有默认值 | 5-3-2. 字段为固定值 | 5-3-3. 字段为随机值

5-3-1. 字段有默认值

字段可以设置一个默认值，当该字段采集内容为空时，自动填充该字段【空内容缺省值】处填写的默认值。

5-3-2. 字段为固定值

字段内容设置为固定值，前提是该字段不点选采集区域（当前字段xpath为空），即不采集直接为空内容，然后在【空内容缺省值】处填写固定值。

5-3-3. 字段为随机值

字段内容设置为随机值，可以设置为随机数字、随机时间、随机字符串等；

注意：使用了随机值，如果该字段有点选的采集内容会被忽略；

随机数字（需设置范围，整数）；
随机时间（需设置范围，年月日）；
随机字符串：可设置多个值（用英文逗号分隔），每条数据采集时都会随机抽取一个值（可设置随机获取多个），一般用作随机分类等；

6. 内容过滤排除（设置屏蔽词）

根据采集内容中包含或不包含指定字符、文本长度、图片下载失败数量等条件，判断是否过滤数据不采集入库。

内容过滤的几种方式：

采集结果不得为空
关键词过滤
文本长度过滤
图片下载失败过滤

6-1. 采集结果不得为空

作用是当该字段采集内容为空时，此数据不采集入库，title字段默认启用该功能，可过滤不同结构的广告或专题页面；

勾上是生效，一般在常见数据处理设置(相关联的，只设置一处即可)，记得保存；

6-2.内容过滤

可设置当字段采集结果不得包含或必须包含某些内容（例如词语，短语等）时，数据是否采集入库；

内容不得包含：填写文本词语，如果在该字段内容中出现了，这条数据就不会采集入库了；

指定多个时用分隔符#_#隔开（例：关键词1#_#关键词2#_#关键词3），只要包含其中一个，则不要该记录（即指定的不要）。
内容必须包含：填写文本词语，如果在该字段内容中出现了，就采集入库，反之没出现则不入库；

指定多个时用分隔符#_#隔开，如果包含其中任何一个，则要该记录（即指定的要）。
内容过滤类型：

I、【内容不得包含】和【内容必须包含】只设置其中一个功能时，选择【满足其中一个条件即可】（默认）； II、【内容不得包含】和【内容必须包含】同时生效，选择【所有条件都必须满足】；