高级提取

  高级提取可设置采集不显示在页面的内容,例如获取网址,图片链接,HTML标签某个属性的值等;

详细使用步骤:

  1. 采集内容类型

  2. 图片链接属性

  3. 选择多值


1. 采集内容类型

  设置不同的提取值类型,可以获取到不同类型的内容,常见的文本,含有HTML标签的内容、HTMl标签的属性等;

I、快捷获取网址或图片链接

  系统提供了几个快捷功能:

  • 只获取网址:勾上启用功能,自动设置获取a标签的链接(href属性),前提是该字段要选择a标签才能生效;

  • 只采集图片链接:勾上启用功能,自动设置获取img标签地址(src属性),前提是该字段要选择img标签才能生效;

II、提取值类型

  提取值类型可选择以下选项:

  • 文本:文字内容,无任何格式;

  • 获取html(带格式的文本和图片等):获取定位标签内的HTML标签和内容,图片和文章排版会保留,正文content字段默认使用该提取值类型;

  • OuterHtml:获取定位标签本身及在内的HTML标签和内容,比【获取html】多了一个HTML定位标签;

  • OwnText:仅获取本定位标签的文本,不含内嵌子孙标签的文本;

  • 节点属性(需填写属性名):可获取定位标签中的属性值,需填写对应属性的键名称;

  • 随机值:提示该字段为随机值,实际使用请到 【随机&固定值】 选项卡中设置;

  例如采集meta标签的content属性:

  <meta name="keywords" content='帮商家把生意“一键”搬进微信 京东出招了,京东,云店,超新星计划,小程序,分销'/>


2. 图片链接属性

  系统采集图片默认从img标签的src、data-src等常见属性获取图片链接,如果采集的图片正常显示或下载,留空即可;

  如果采集的图片无法显示或下载,可能是图片链接存放在其他特殊属性中,需对应填写图片链接正确所在的属性;

  假设一网站的正确图片链接在origin-src属性;


3. 选择多值

I、功能简介

  勾上启用功能,支持点选多个采集区域内容合并,分隔符默认是逗号,【多值分隔字符】可以修改,一般是填上换行标签<br>或者空格;(选择多值功能一般是在常用数据处理设置的,相关联的)

  注意:不建议使用选择多值,指的是采集正文时可能导致排版丢失,所以采集正文还是优先整体选择,采集标签等就可以使用选择多值功能;

II、多值操作

  1)多值选择一般是在常用数据处理设置的,先勾上选择多值;

  2)点选你要组合的几个采集区域,假设组合标题和第一段内容,选择后可以看到多值的特征:xpath是两个路径合并的,中间分号分隔,数据预览分成了两个,中间用横线隔开;

  3)多值的采集结果;


简数导航: 简数采集   简数控制台   如何使用简数SEO工具   微信公众号文章采集   今日头条采集  

results matching ""

    No results matching ""