简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

提取Json数据中的网址

  简数采集器支持采集Json数据格式页面中的网址,常见于点击加载更多,滚动加载(瀑布流加载)等网址没有变化的列表页页面,该模式只适用于列表页提取器。

详细使用步骤:

  1. 启用Json采集模式
  2. 获取文章网址
  3. 查看网址预览
  4. 附录:如何获取返回Json数据的网址


1. 启用Json采集模式

  在【列表提取器】页面中选择【Json数据】,即可切换为Json采集模式,切换后不支持鼠标点选生成采集规则功能。

  注意:Json采集模式建议使用高级模式创建任务,如果使用智能向导创建任务设置Json采集模式,列表提取器设置先跳过不配置,任务创建完成后再进入列表提取器,设置Json采集模式才能保存成功。


2. 获取文章网址

  在Json采集模式,主要是观察获取Json数据中和文章页网址相关的一个属性值(例url或ArticleId或ID等),然后再组合成正确的文章页网址格式,系统会循环获取全部Json数据中对应的属性值,生成多个文章页网址。

  • 提取JSON键名:获取与文章页网址相关属性名称(一般是网址url或网址中的数字id,ArticleId等),只可填写一个;

  • 链接生成定义(参数模式,可选):组合成完整的文章页网址格式,如果获取的属性值已经是完整的文章网址链接,则不填写;

2-1)例子1:Json数据中有文章页网址的属性 url

【提取JSON键名】栏填写url,【链接生成定义】则不用填写。

2-2)例子2:Json数据中只有文章页网址相关的数字属性 ArticleId

【提取JSON键名】栏填写ArticleId,【链接生成定义】则为http://www.域名.com/news/#[ArticleId]#.html

  注意:Json采集模式不支持鼠标点选生成采集规则。


3. 查看网址预览

  完成Json采集模式配置,点击列表提取器页面右上角的【保存】按钮,再点击【测试提取JSON】按钮,页面左侧【数据预览】即会显示部分获取的文章网址链接,检查配置是否正确。


4. 附录:如何获取返回Json数据的网址

  使用浏览器的开发者工具尝试获取返回Json数据的网址,注意并不是所有网站都可以获取到的。(以chrome浏览器为例)

4-1)先在浏览器访问要采集的网址,等页面加载完成后。

4-2)点击键盘F12或者鼠标右键检查进入开发者工具 -》切换到Network界面的,选择XHR筛选。

4-3)回到网站页面,点击页面的加载更多按钮,或者滚动下拉页面 -》在Network界面出现对应的加载文件,查看Request URL的网址即可获取。


简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

results matching ""

    No results matching ""