简数导航:简数首页 简数控制台 采集入门教程 数据导出发送 采集翻译
字符替换(支持正则语法)
多种字符替换方法:
1. 简单字符替换
在【将字符串】列填写要替换掉的值(文本或html标签都支持),在【替换为】列填写要新插入的值;
可自定义添加或删除替换规则,多个替换规则执行顺序是从上到下替换的;
删除字符,是在【替换为】列不填写值,即替换为空;
2. 字符正则替换(模糊匹配)
在【将字符串】列填写带有正则语法的表达式,然后勾上使用正则功能即可,注意保存;
正则基础语法可看正则表达式常用语法;
3. 常用的字符正则替换
采集的内容中出现一些不需要的额外信息时,如果有共同点就可以使用字符正则替换来删除,下面介绍几种常见的情况。
正则基础语法可看正则表达式常用语法。
I、删除文章末尾内容
采集的文章末尾有额外信息(内容不固定),共同点都是某个固定词为开头,常见的场景:
- 推荐文章:
- 相关推荐:
- 编辑推荐;
可设置字符正则替换删除,格式为.*?固定词[\s\S]+
,比如;(有标点符号的要注意是全角或半角)
.*?推荐文章:[\s\S]+
.*?相关推荐:[\s\S]+
.*?编辑推荐[\s\S]+
II、删除文章中的一段话
文章中有一段话不要,没有换行且部分内容不固定,共同点都是某个固定词为开头,常见的场景:
- 简数站推荐:“不固定的语句”
- 本站为大家提供“不固定的语句”
可设置字符正则替换删除,格式为固定词.+
,比如;
简数站推荐:.+
本站为大家提供.+
III、删除文章中的样式
如果想清除采集文章中的字体大小,颜色,段落间接等,可以删除style属性。
在字符替换处,点击【将字符串处】的输入框,再点击【删除style属性】,然后勾上使用正则,保存。