简数导航:简数首页 简数控制台 采集入门教程 数据导出发送 采集翻译
字符替换(支持正则语法)
多种字符替换方法:
1. 简单字符替换
在【将字符串】列填写要替换掉的值(文本或html标签都支持),在【替换为】列填写要新插入的值;
可自定义添加或删除替换规则,多个替换规则执行顺序是从上到下替换的;
删除字符,是在【替换为】列不填写值,即替换为空;
2. 字符正则替换(模糊匹配)
在【将字符串】列填写带有正则语法的表达式,然后勾上使用正则功能即可,注意保存;
正则基础语法可看正则表达式常用语法;
3. 常用的字符正则替换
采集的内容中出现一些不需要的额外信息时,如果有共同点就可以使用字符正则替换来删除,下面介绍几种常见的情况。
正则基础语法可看正则表达式常用语法。
I、删除文章末尾内容
采集的文章末尾有额外信息(内容不固定),但是共同点都是某个词固定为开头的,类似(有些有冒号,有些没有,看实际情况的):
- 推荐文章:
- 相关推荐:
- 编辑推荐;
设置相对应的字符正则替换,格式为固定词[\s\S]+
,然后再测试采集查看效果的;
推荐文章:[\s\S]+
相关推荐:[\s\S]+
编辑推荐[\s\S]+
II、删除文章中的一段话
采集的文章中有不要的一段话内容,没有换行且部分内容不固定,但是共同点都是某个词固定为开头的,类似:
- 简数站推荐:(不固定的商品广告推荐语)
- 本站为大家提供(不固定的商品广告推荐语)
设置相对应的字符正则替换,格式为固定词.+
,然后再测试采集查看效果的;
简数站推荐:.+
本站为大家提供.+
III、删除文章中的样式
如果想清除采集文章中的字体大小,颜色,段落间接等,可以删除style属性。
在字符替换处,点击【将字符串处】的输入框,再点击下方的【删除style属性】按钮,然后勾上使用正则,最后保存即可。