简数导航:简数首页 简数控制台 采集入门教程 数据导出发送 AI智能写作
正文内容采集技巧
配置正文采集时,建议避免点选多个段落区域合并采集(即选择多值),这种方式可能导致排版混乱、内容多余或缺失、采集规则通用性差等问题。
解决这些问题的常用技巧有:
1. 快速选取正文,使用“扩大点选区域”
针对正文内容区域通常较长,整体选取较难的情况,可使用"扩大点选区域"技巧:
1)在详情提取器content字段,点选正文的任意一个段落区域,再点击【扩大点选区域】按钮。
2)选区范围就会从当前段落扩大到全文内容。
若一次未能选中全文,可多次点击渐进式扩展,直至完整选取正文内容。
2. 多余内容删除技巧
当正文内容存在推广信息或无关内容时,可通过以下三个技巧精准删除:
1)末尾内容删除
多余内容在正文末尾,均以相同的某某词开头。
使用正则表达式.*?某某词[\s\S]+
替换为空,可删除某某词及其之后的全部内容,示例;
常见某某词 | 正则表达式 |
---|---|
推荐文章: | .*?推荐文章:[\s\S]+ |
相关推荐: | .*?相关推荐:[\s\S]+ |
编辑推荐 | .*?编辑推荐[\s\S]+ |
注意:中文与英文的标点符号及空格在正则表达式中是不同的字符,如中文冒号:和英文冒号:
2)句子或段落删除
多余内容为正文里的句子或段落(无换行符),均以相同的某某词开头。
使用正则表达式某某词.+
替换为空,可删除从某某词开始到同一行尾的内容,仅影响单行文本,示例:
常见某某词 | 正则表达式 |
---|---|
简数站推荐:“某某句子” | 简数站推荐:.+ |
本站为大家提供“某某句子” | 本站为大家提供.+ |
3)固定位置内容删除
正文中的多余内容位于固定位置,可通过删除对应HTML标签及其包裹的内容进行清理,比如删除正文第一段内容,最后两段内容等。
在content字段数据预览,确定多余内容的HTML代码和位置 -》字符数据处理 -》标签内容删除 -》配置删除的位置、数量和HTML标签。
3. 正文无分段排版解决方法
当采集的正文内容没有分段,排版混乱时,可用以下方法解决:
1)保留div标签
在content字段字符数据处理 -》HTML标签过滤 -》勾上"获取html" -》勾上"过滤部分html标签" -》勾上"层<div
" -》保存,测试采集。
2)修改多值分隔符
如果正文里新增很多逗号,通常是选择多值采集造成的,将多值分隔符从逗号改为换行标签<br>
。