简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  AI写作生成

采集任务网络配置

  若目标网站需特定的请求参数才能访问采集,可在简数采集任务的网络配置处调整相关参数:页面编码User-AgentCookie登录HTTP-Header请求头

  网络配置位于采集任务的【启动采集】按钮,或者提取器配置左下角。

使用说明:

  1. 页面编码(文本乱码)
  2. User-Agent(模拟多种设备)
  3. Cookie(模拟登录账号)
  4. HTTP-Header(自定义请求头)


1. 页面编码(文本乱码)

  页面字符编码确保网页的文字能被正确解析,避免乱码。当前网页标准普遍推荐使用 UTF-8 编码。

  如果采集内容出现乱码,可尝试切换为 GBK 或 GB2312 编码,并重新采集。


2. User-Agent(模拟多种设备)

  User-Agent 是标识客户端身份(如浏览器类型、设备系统)的字符串。网站据此返回适配不同设备(电脑、手机或平板)的网页内容。


3. Cookie(模拟登录账号)

  Cookie 核心功能是让网站 “记住” 用户的状态信息,比如登录状态、字体偏好和地理位置等。

  采集网站登录后的内容需使用Cookie,具体操作详见——获取Cookie进行登录采集


4. HTTP-Header(自定义请求头)

  HTTP-Header 由客户端向服务器发送,提供客户端环境、偏好和请求资源所需的附加信息,让服务器能精准处理请求,并返回适配的数据格式资源。

//例子1:采集多语言网站,要求服务器优先使用以下语言:简体中文>通用中文>繁体中文...
accept-language: zh-CN,zh;q=0.9,zh-TW;q=0.8,en-US;q=0.7,en;q=0.6

//例子2:采集网站要求身份安全验证
Authorization: Bearer eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9..

注意:参数名和值用冒号:组合,多组参数回车换行分隔。


简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

results matching ""

    No results matching ""