常用截取&提取

  主要功能是使用正则表达式提取或替换匹配的内容,内置常见提取正则表达式:日期、数字、网址、号码、截取前X个字符和获取第二张图片链接等。

详细使用步骤:

  1. 常用截取&提取表达式
  2. 自定义正则表达式


1. 常用截取&提取表达式

  简数文章采集提供常见的提取和截取正则表达式,不懂正则语法也可轻松使用,只需点击下对应的按钮;

  常见的提取和截取正则表达式:日期、中文日期、正整数、负整数、正浮点数、负浮点数、网址URL、邮箱、IP、身份证号码、手机号码、固定电话号码、微信号、5到11位的数字、截取前X个字符、获取第2张图片链接;

  注意:如果没匹配到内容则该字段为空内容,所以需要时才设置;

  例子1:假设日期和其他信息混在一起,无法通过选择区域分开,这时可使用日期提取功能,记得最后保存:

  例子2:如果想保留标题的前20个字,可以使用截取前X个字符功能,默认是保留前10个字符,将数字改为20即可;


2. 自定义正则表达式

  可自定义填写正则表达式提取或替换需要的内容,如果没匹配到内容则该字段为空内容;

  • 字段原值:字段的采集内容,未执行正则语法的原来内容;

  • 将匹配的内容:填写正则表达式,匹配原值中符合条件的所有内容;

  • 替换为:如果不填,会提取匹配的内容; 如果填写了,匹配的内容会被填写的值替换,原值其他内容保持不变;

  • 正则捕获组:使用正则捕获语法提取内容(就是匹配括号中的内容会被提取),该处只能提取不能替换; 注意:正则捕获只会匹配符合条件的第一个内容,而不是所有都匹配;

  • 多组值分隔符:如果正则捕获组有多个,该值会作为分隔符,默认为空;

  注意:如果【字符替换】、【将匹配的内容】和【正则捕获组】同时设置了,【将匹配的内容】先执行,然后【正则捕获组】再执行,最后【字符替换】执行;


简数导航: 简数采集   简数控制台   如何使用简数SEO工具   微信公众号文章采集   今日头条采集  

results matching ""

    No results matching ""