简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

字符替换(支持正则语法)

多种字符替换方法:

  1. 简单字符替换

  2. 字符正则替换

  3. 常用的字符正则替换

1. 简单字符替换

  在【将字符串】列填写要替换掉的值(文本或html标签都支持),在【替换为】列填写要新插入的值;

  可自定义添加或删除替换规则,多个替换规则执行顺序是从上到下替换的;

  删除字符,是在【替换为】列不填写值,即替换为空;


2. 字符正则替换(模糊匹配)

  在【将字符串】列填写带有正则语法的表达式,然后勾上使用正则功能即可,注意保存;

  正则基础语法可看正则表达式常用语法;


3. 常用的字符正则替换

  采集的内容中出现一些不需要的额外信息时,如果有共同点就可以使用字符正则替换来删除,下面介绍几种常见的情况。

  正则基础语法可看正则表达式常用语法

I、删除文章末尾内容

  采集的文章末尾有额外信息(内容不固定),但是共同点都是某个词固定为开头的,类似(有些有冒号,有些没有,看实际情况的):

  • 推荐文章:
  • 相关推荐:
  • 编辑推荐;

  设置相对应的字符正则替换,格式为固定词[\s\S]+,然后再测试采集查看效果的;

  • 推荐文章:[\s\S]+
  • 相关推荐:[\s\S]+
  • 编辑推荐[\s\S]+

II、删除文章中的一段话

  采集的文章中有不要的一段话内容,没有换行且部分内容不固定,但是共同点都是某个词固定为开头的,类似:

  • 简数站推荐:(不固定的商品广告推荐语)
  • 本站为大家提供(不固定的商品广告推荐语)

  设置相对应的字符正则替换,格式为固定词.+,然后再测试采集查看效果的;

  • 简数站推荐:.+
  • 本站为大家提供.+

III、删除文章中的样式

  如果想清除采集文章中的字体大小,颜色,段落间接等,可以删除style属性。

  在字符替换处,点击【将字符串处】的输入框,再点击下方的【删除style属性】按钮,然后勾上使用正则,最后保存即可。


简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

results matching ""

    No results matching ""