简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

字符替换(支持正则语法)

多种字符替换方法:

  1. 简单字符替换

  2. 字符正则替换

  3. 常用的字符正则替换

1. 简单字符替换

  在【将字符串】列填写要替换掉的值(文本或html标签都支持),在【替换为】列填写要新插入的值;

  可自定义添加或删除替换规则,多个替换规则执行顺序是从上到下替换的;

  删除字符,是在【替换为】列不填写值,即替换为空;


2. 字符正则替换(模糊匹配)

  在【将字符串】列填写带有正则语法的表达式,然后勾上使用正则功能即可,注意保存;

  正则基础语法可看正则表达式常用语法;


3. 常用的字符正则替换

  采集的内容中出现一些不需要的额外信息时,如果有共同点就可以使用字符正则替换来删除,下面介绍几种常见的情况。

  正则基础语法可看正则表达式常用语法

I、删除文章末尾内容

  采集的文章末尾有额外信息(内容不固定),共同点都是某个固定词为开头,常见的场景:

  • 推荐文章:
  • 相关推荐:
  • 编辑推荐;

  可设置字符正则替换删除,格式为.*?固定词[\s\S]+,比如;(有标点符号的要注意是全角或半角)

  • .*?推荐文章:[\s\S]+
  • .*?相关推荐:[\s\S]+
  • .*?编辑推荐[\s\S]+

II、删除文章中的一段话

  文章中有一段话不要,没有换行且部分内容不固定,共同点都是某个固定词为开头,常见的场景:

  • 简数站推荐:“不固定的语句”
  • 本站为大家提供“不固定的语句”

  可设置字符正则替换删除,格式为固定词.+,比如;

  • 简数站推荐:.+
  • 本站为大家提供.+

III、删除文章中的样式

  如果想清除采集文章中的字体大小,颜色,段落间接等,可以删除style属性。

  在字符替换处,点击【将字符串处】的输入框,再点击【删除style属性】,然后勾上使用正则,保存。


简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

results matching ""

    No results matching ""