数据处理(采集前,在“详情提取器”中配置)
在详情提取器中,对从详情页面提取的数据进行进一步处理配置,可以同时添加多种操作。
数据处理详细教程
数据处理功能简述
- 常用删除&填充:用于快捷删除图片、链接;填充:可在字段前面或后面添加内容。
- 字符替换:比较常用,将采集的内容进行字符串替换(支持正则)。也可用于删除,即替换为空字符串。
- 高级删除&处理:用于删除任意标签,并且可以指定前几个、后几个或全部标签;支持保留文本。
- 日期等正则提取:提供常见内容的快捷提取,如:日期、Email、IP、身份证等等。另外还可以通过强大的正则表达式进行提取或替换。
- 随机值&固定值:可以给字段设置随机值,包括随机数字、随机时间、随机字符串,并且可以指定随机的范围。
- 还可以填写固定值(当规则提取的内容为空时,使用默认值)
HTML标签过滤: 可选择过滤掉指定HTML标签,如a、p、div等。(提示:用户一般不需要配置,简数已默认过滤不需要的标签)
高级配置:获取HTML标签特殊属性等。设置字段“采集结果为空”,如果为空,则丢弃整条记录等。
以上配置,在“详情提取器”中,双击要处理的字段或点击字段右侧的配置按钮,出现:
提示:配置后,可以点击“测试采集”按钮来检测配置是否正确有效。
引用同一条数据的其他字段
结果数据处理(采集后,在任务的“结果数据&发布”中使用)
采集后数据处理,一般用于补充处理。如果采集前都配置正确了,一般不需要再做处理。
但如果在采集前配置不全时,发现采集到的数据还需再处理,那么就可以使用这工具了。
在任务的“结果数据&发布”页面,点击“数据批量处理工具”即可使用。点击查看详细使用教程
简数导航: 简数采集 简数控制台 如何使用简数SEO工具 微信公众号文章采集 今日头条采集