• 简数采集器文档中心
  • 基本概念
    • 列表页
    • 详情页(内容页)
  • 一 新手入门
    • 采集入门教程
    • 采集视频教程
  • 二 数据采集
    • 2.1 创建采集任务
    • 2.2 列表提取器(网址采集规则)
      • 2.2.1 列表翻页配置(批量网址采集)
      • 2.2.2 列表Json采集
      • 2.2.3 JS异步加载数据配置
    • 2.3 详情提取器(内容采集规则)
      • 2.3.1 字段数据处理配置
      • 2.3.2 内容分页(详情分页)
    • 2.4 图片下载及云存储
      • 2.4.1 云存储(阿里、腾讯、七牛云、又拍云)
      • 2.4.2 图片暂存
      • 2.4.3 图片下载配置常见问题
    • 2.5 采集启动
    • 2.6 定时采集和导出发送
    • 2.7 按关键词采集
  • 三 数据导出发送
    • 3.1 数据导出为excel、sql和html等
    • 3.2 导出发送到数据库
    • 3.3 导出发送到自定义http接口
    • 3.4 定时导出发送
  • 四 采集翻译和第三方API
    • 4.1 采集翻译工具
    • 4.2 简繁体转换
    • 4.3 接入第三方API分析
  • 五 数据汇总库
    • 5.1 数据汇总库管理
    • 5.2 汇总库创建和使用
  • 六 常见问题FAQ
    • 6.1 简数采集常见问题
    • 6.2 图片下载配置常见问题
  • 七 采集经验与使用技巧(汇总)
  • Published with GitBook

七 采集经验与使用技巧(汇总)

简数导航: 简数首页   简数控制台

采集经验与使用技巧(汇总)

  1. 提取器技巧:点选采集内容时,定位不到区块问题解决方法

  2. 列表提取器获取特殊链接网址(如在onclick属性)

  3. 配置采集文章描述和关键词(description和keywords)

  4. Xpath简单用法

  5. 简数翻译工具使用,支持百度、谷歌、有道翻译和DeepL翻译接口

  6. 正则表达式常用语法

results matching ""

    No results matching ""