HTML标签删除
用于删除HTML标签及其包含内容,可以指定位置和数量,支持保留文本;
详细使用步骤:
1. HTML标签删除
HTML标签删除可设置以下属性:
指定删除位置:前面,最后,第几个,倒数第几个,全部;
删除数量:填写数字,如果指定位置选择全部,此处则不用填写;
删除的标签名称:系统提供一些常见的标签,点击选择,支持搜索;
保留文本:勾上则保留标签中的文本,默认不保留;
顺序:支持添加多个标签删除规则,系统自动创建对应的数字顺序,可以自行调整;
注意:HTML标签删除功能生效的前提是,该字段设置了获取Html;
2. 删除多余内容
有些正文前面或者后面会添加一些宣传,广告等多余内容, 如果在选择采集区域时无法将多余信息和正文分开时,且每篇文章都有一样的多余内容,就可以尝试用删除HTML标签来解决。
如果多余内容只是一张图片,可以用常用删除的快速删除图片功能;
I、获取多余内容标签
测试采集,查看数据预览的代码模式;
II、删除HTML标签设置
从预览代码可以看出,只要删除最后两个span标签和最后一个ul标签(ul标签包含多个li标签,所以删除ul更好)即可;
III、采集结果
重新测试采集,查看采集结果;
IV、无标签文本
如果只出现文本,没有对应包裹的标签,可能是系统默认过滤部分不常用的标签导致,可以设置保留对应标签,再进行删除,详情可看HTML标签过滤;
较常见的是div标签,先设置保留div标签,再删除对应div标签;
注意:有嵌套的标签,先删除里面的,再删除外层,下图例子中嵌套最里面的div标签是第一个,外层的是第二个;
提示:如果是已采集入库的数据,删除HTML标签可以使用 结果数据批量修改工具;
简数导航: 简数采集 简数控制台 如何使用简数SEO工具 微信公众号文章采集 今日头条采集