数据处理(采集前,在“详情提取器”中配置)

在详情提取器中,对从详情页面提取的数据进行进一步处理配置,可以同时添加多种操作。

数据处理详细教程

  1. 采集数据处理:快速删除链接、图片

  2. 采集数据处理:删除前后多余内容

  3. 采集数据处理:字符替换

  4. 采集数据处理:内容使用随机或固定值

  5. 采集数据处理:HTML标签过滤

  6. 采集数据处理:正则提取或替换内容

  7. 采集数据处理:高级配置


数据处理功能简述

  1. 常用删除&填充:用于快捷删除图片、链接;填充:可在字段前面或后面添加内容。
  2. 字符替换:比较常用,将采集的内容进行字符串替换(支持正则)。也可用于删除,即替换为空字符串。
  3. 高级删除&处理:用于删除任意标签,并且可以指定前几个、后几个或全部标签;支持保留文本。
  4. 日期等正则提取:提供常见内容的快捷提取,如:日期、Email、IP、身份证等等。另外还可以通过强大的正则表达式进行提取或替换。
  5. 随机值&固定值:可以给字段设置随机值,包括随机数字、随机时间、随机字符串,并且可以指定随机的范围。
    1. 还可以填写固定值(当规则提取的内容为空时,使用默认值)
  6. HTML标签过滤: 可选择过滤掉指定HTML标签,如a、p、div等。(提示:用户一般不需要配置,简数已默认过滤不需要的标签)

  7. 高级配置:获取HTML标签特殊属性等。设置字段“采集结果为空”,如果为空,则丢弃整条记录等。

    以上配置,在“详情提取器”中,双击要处理的字段或点击字段右侧的配置按钮,出现:
    

提示:配置后,可以点击“测试采集”按钮来检测配置是否正确有效。

引用同一条数据的其他字段


结果数据处理(采集后,在任务的“结果数据&发布”中使用)

采集后数据处理,一般用于补充处理。如果采集前都配置正确了,一般不需要再做处理。
但如果在采集前配置不全时,发现采集到的数据还需再处理,那么就可以使用这工具了。

在任务的“结果数据&发布”页面,点击“数据批量处理工具”即可使用。点击查看详细使用教程


简数导航: 简数采集   简数控制台   如何使用简数SEO工具   微信公众号文章采集   今日头条采集  

results matching ""

    No results matching ""