字段数据处理配置(采集前,在“详情提取器”中配置)

  对详情页面提取的数据进一步处理配置,可以同时添加多种数据处理操作:

  删除、填充、替换、提取、过滤,设置随机或固定值等等。

数据处理功能简述

  1. 常用删除&填充:支持快速删除图片或链接,字段前后填充内容(例如版权说明),也可引用同条数据的其他字段内容。

  2. 字符替换:主要功能是替换或删除字符,支持正则语法。

  3. 高级删除&处理:用于删除HTML标签,可以指定位置和数量,支持保留文本。

  4. 常用截取&提取:使用正则表达式进行提取或替换内容,内置常见正则表达式提取,例如:日期、数字、网址、号码、截取前X个字符和获取第二张图片链接等。

  5. 随机值&固定值:可以给字段设置固定值或随机值,包括随机数字、随机时间、随机字符串等。

  6. 内容过滤:可根据采集结果的内容或文本长度,判断数据是否采集入库;

  7. HTML标签过滤:可过滤指定HTML标签,如table、hr、img等。(提示:用户一般不需要配置,简数已默认过滤不常用的标签);

  8. 高级配置:高级配置可设置采集不显示在页面的内容,例如获取网址,图片链接,HTML标签某个属性的值等;

提示:配置后,可以点击“测试采集”按钮来检测配置是否正确有效。


已采集入库数据处理

字段数据处理配置是采集前设置的,如果是已采集入库的数据需要再批量处理,可以使用【批量修改工具】;

注意:采集后数据处理,一般用于补充处理。如果采集前都配置正确了,一般不需要再做处理。

在任务的“结果数据&发布”页面,点击“批量修改工具”即可使用。点击查看详细使用教程


简数导航: 简数采集   简数控制台   如何使用简数SEO工具   微信公众号文章采集   今日头条采集  

results matching ""

    No results matching ""