简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  AI写作生成

采集任务网络配置

  若目标网站需特定的请求参数才能正常访问采集,可在采集任务的网络配置处调整相应参数:页面编码User-AgentCookie登录验证HTTP-Header请求头

  网络配置位于任务的【启动采集】配置弹窗内,或者提取器配置页面左下角。

使用说明:

  1. 页面编码(解决文本乱码)
  2. User-Agent(模拟多种设备)
  3. Cookie(模拟登录账号)
  4. HTTP-Header(自定义请求头)


1. 页面编码(解决文本乱码)

  页面编码决定了浏览器如何解读网页文字,设置错误会出现乱码。目前绝大多数网页使用 UTF-8 编码。

  如果采集内容出现乱码,可尝试切换为 GBK 或 GB2312 编码,然后重新采集。


2. User-Agent(模拟多种设备)

  User-Agent 是一段标识你所用浏览器和设备的字符串,网站会据此返回适配对应电脑、手机或平板等设备的网页内容


3. Cookie(模拟登录账号)

  Cookie 能让网站“记住”用户的状态信息,比如是否已经登录、偏好的字体大小和所在地区等。

  如需采集网站登录后才能看到的内容,可使用 Cookie 功能,具体操作请参阅《获取Cookie进行登录采集教程》。


4. HTTP-Header(自定义请求头)

  HTTP-Header 是访问网站时,浏览器向服务器发送请求时附带的额外信息,可用于告诉服务器你的环境、偏好或身份凭证等,让服务器返回你想要的数据格式。

//示例1:采集多语言网站时,要求服务器优先返回简体中文内容
accept-language: zh-CN,zh;q=0.9,zh-TW;q=0.8,en-US;q=0.7,en;q=0.6

示例2:采集需要身份验证的网站
Authorization: Bearer eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9..

  添加自定义的请求头格式为:参数名: 值(每行一组,多组回车换行分隔)。


简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

results matching ""

    No results matching ""