HTML标签删除

  用于删除HTML标签及其包含内容,可以指定位置和数量,支持保留文本;

详细使用步骤:

  1. HTML标签删除
  2. 删除多余内容


1. HTML标签删除

  HTML标签删除可设置以下属性:

  • 指定删除位置:前面,最后,第几个,倒数第几个,全部;

  • 删除数量:填写数字,如果指定位置选择全部,此处则不用填写;

  • 删除的标签名称:系统提供一些常见的标签,点击选择,支持搜索;

  • 保留文本:勾上则保留标签中的文本,默认不保留;

  • 顺序:支持添加多个标签删除规则,系统自动创建对应的数字顺序,可以自行调整;

  注意:HTML标签删除功能生效的前提是,该字段设置了获取Html;


2. 删除多余内容

  有些正文前面或者后面会添加一些宣传,广告等多余内容, 如果在选择采集区域时无法将多余信息和正文分开时,且每篇文章都有一样的多余内容,就可以尝试用删除HTML标签来解决。

  如果多余内容只是一张图片,可以用常用删除的快速删除图片功能

I、获取多余内容标签

  测试采集,查看数据预览的代码模式;

II、删除HTML标签设置

  从预览代码可以看出,只要删除最后两个span标签和最后一个ul标签(ul标签包含多个li标签,所以删除ul更好)即可;

III、采集结果

  重新测试采集,查看采集结果;

IV、无标签文本

  如果只出现文本,没有对应包裹的标签,可能是系统默认过滤部分不常用的标签导致,可以设置保留对应标签,再进行删除,详情可看HTML标签过滤

  较常见的是div标签,先设置保留div标签,再删除对应div标签;

  注意:有嵌套的标签,先删除里面的,再删除外层,下图例子中嵌套最里面的div标签是第一个,外层的是第二个;

  提示:如果是已采集入库的数据,删除HTML标签可以使用 结果数据批量修改工具


简数导航: 简数采集   简数控制台   如何使用简数SEO工具   微信公众号文章采集   今日头条采集  

results matching ""

    No results matching ""