简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  AI智能写作

正文内容采集技巧

  配置正文采集时,建议避免点选多个段落区域合并采集(即选择多值),这种方式可能导致排版混乱、内容多余或缺失、采集规则通用性差等问题。

解决这些问题的常用技巧有:

  1. 快速选取正文,使用“扩大点选区域”

  针对正文内容区域通常较长,整体选取较难的情况,可使用"扩大点选区域"技巧:

  1)在详情提取器content字段,点选正文的任意一个段落区域,再点击【扩大点选区域】按钮。

  2)选区范围就会从当前段落扩大到全文内容。

  若一次未能选中全文,可多次点击渐进式扩展,直至完整选取正文内容。


  2. 多余内容删除技巧

  当正文内容存在推广信息或无关内容时,可通过以下三个技巧精准删除:

1)末尾内容删除

  多余内容在正文末尾,均以相同的某某词开头。

  使用正则表达式.*?某某词[\s\S]+替换为空,可删除某某词及其之后的全部内容,示例;

常见某某词 正则表达式
推荐文章: .*?推荐文章:[\s\S]+
相关推荐: .*?相关推荐:[\s\S]+
编辑推荐 .*?编辑推荐[\s\S]+

  注意:中文与英文的标点符号及空格在正则表达式中是不同的字符,如中文冒号:和英文冒号:

2)句子或段落删除

  多余内容为正文里的句子或段落(无换行符),均以相同的某某词开头。

  使用正则表达式某某词.+替换为空,可删除从某某词开始到同一行尾的内容,仅影响单行文本,示例:

常见某某词 正则表达式
简数站推荐:“某某句子” 简数站推荐:.+
本站为大家提供“某某句子” 本站为大家提供.+

3)固定位置内容删除

  正文中的多余内容位于固定位置,可通过删除对应HTML标签及其包裹的内容进行清理,比如删除正文第一段内容,最后两段内容等。

  在content字段数据预览,确定多余内容的HTML代码和位置 -》字符数据处理 -》标签内容删除 -》配置删除的位置、数量和HTML标签。


  3. 正文无分段排版解决方法

  当采集的正文内容没有分段,排版混乱时,可用以下方法解决:

1)保留div标签

  在content字段字符数据处理 -》HTML标签过滤 -》勾上"获取html" -》勾上"过滤部分html标签" -》勾上"层<div" -》保存,测试采集。

2)修改多值分隔符

  如果正文里新增很多逗号,通常是选择多值采集造成的,将多值分隔符从逗号改为换行标签<br>


简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  AI处理采集数据

results matching ""

    No results matching ""