简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

常用截取&提取

  主要功能是使用正则表达式提取或替换匹配的内容。

详细使用步骤:

  1. 常用截取&提取表达式

  2. 自定义正则表达式

  3. 前后截取功能


1. 常用截取&提取表达式

  简数文章采集提供常见的提取和截取正则表达式,不懂正则语法也可轻松使用,只需点击下对应的按钮;

  注意:如果没匹配到要保留的内容则该字段会变为空内容,所以需要时才设置;

  例子:假设日期和其他信息混在一起,无法通过选择区域分开,这时可使用日期提取功能,记得最后保存:


2. 自定义正则表达式

  可自定义填写正则表达式提取或替换需要的内容,如果没匹配到内容则该字段为空内容;

  • 将匹配的内容:填写正则表达式,匹配原值中符合条件的所有内容;

  • 替换为:如果不填,会提取匹配的内容; 如果填写了,匹配的内容会被填写的值替换,原值其他内容保持不变;

  • 正则捕获组:使用正则捕获语法提取内容(就是匹配括号中的内容会被提取),该处只能提取不能替换; 注意:正则捕获只会匹配符合条件的第一个内容,而不是所有都匹配;

  • 多组值分隔符:如果正则捕获组有多个,该值会作为分隔符,默认为空;

  注意:如果【字符替换】、【将匹配的内容】和【正则捕获组】同时设置了,【将匹配的内容】先执行,然后【正则捕获组】再执行,最后【字符替换】执行;


3. 前后截取功能

  可截取开头字符串和结尾字符串之间的内容作为采集内容,一般建议使用鼠标点选自动生成采集规则方式更为方便。

  • 开头字符串(前后截取):可填写文本,Html代码,正则表达式(需勾上后面的使用正则);

  • 结尾字符串(前后截取):可填写文本,Html代码,正则表达式(需勾上后面的使用正则),可为空不填写(即一直截取到所选采集区域结尾);

  • 过滤部分html标签:默认即可,如果截取内容为空,或者开头结尾字符串中包含html代码(例如含有class,id等属性),去掉不勾选【过滤部分html标签】,才可以成功截取到内容的;

    • 不勾上使用【过滤部分html标签】功能,页面的html代码会完整保留下来,包括html标签属性,脚本标签,注释等;
  • 如果无法截取到内容,请检查以下设置:
    • I. 字段数据处理的【HTML标签过滤】页面的获取html为勾上使用;
    • II. 字段数据处理的【HTML标签过滤】页面的过滤部分html标签为不勾上;
    • III. 当前字段xpath值改为/html

  备注:如果截取后有多余的内容,可以使用字符替换正则替换删除,例如删除标签属性(class=".*?"和id=".*?"),脚本标签(<script[\s\S]+?</script>),注释(<\!--[\s\S]+?-->)等;


简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

results matching ""

    No results matching ""