• 简数采集器文档中心
  • 基本概念
    • 列表页
    • 详情页(内容页)
  • 一 新手入门
    • 采集入门教程
    • 采集视频教程
  • 二 数据采集
    • 2.1 创建采集任务
    • 2.2 列表提取器(网址采集规则)
      • 2.2.1 列表翻页配置(批量网址采集)
      • 2.2.2 JS异步加载数据配置
      • 2.2.3 Json提取网址
      • 2.2.4 Sitemap提取网址
      • 2.2.5 特殊网页提取网址
    • 2.3 详情提取器(内容采集规则)
      • 2.3.1 常用删除&填充
      • 2.3.2 字符替换(支持正则)
      • 2.3.3 常用截取&提取
      • 2.3.4 内容过滤排除(屏蔽词)
      • 2.3.5 HTML标签过滤
      • 2.3.6 更多字段数据处理配置
      • 2.3.7 内容分页(详情分页)
    • 2.4 图片下载及云存储
      • 2.4.1 云存储(阿里、腾讯、七牛云、又拍云)
      • 2.4.2 图片暂存
      • 2.4.3 图片下载配置常见问题
    • 2.5 采集启动
    • 2.6 定时采集和导出发送
    • 2.7 按关键词采集(泛采集)
    • 2.8 书签采集(随时单页采集)
    • 2.9 数据处理(采集前)
    • 2.10 数据处理(采集后)
  • 三 数据导出发送
    • 3.1 数据导出为excel、sql和html等
    • 3.2 发送到数据库
    • 3.3 发送到自定义http接口
    • 3.4 导出发送到CMS
    • 3.5 定时导出发送
  • 四 翻译、处理规则和第三方API
    • 4.1 采集翻译工具
    • 4.2 简繁体转换
    • 4.3 接入第三方API分析
    • 4.4 处理规则
      • 4.4.1 字段添加关键词
      • 4.4.2 字段中的词加链接
      • 4.4.3 字段添加链接段落
  • 五 数据汇总库(支持导入)
    • 5.1 汇总库管理
    • 5.2 汇总库创建和使用
    • 5.3 导入任务数据
    • 5.4 上传导入Excel、Txt...
  • 六 常见问题FAQ
    • 6.1 简数采集常见问题(汇总)
      • 6.1.1 重新采集时,采集不到数据的解决方法
      • 6.1.2 采集内容没有排版解决方法
      • 6.1.3 采集内容有乱码解决方法
      • 6.1.4 采集内容为空时不采集设置方法
      • 6.1.5 列表页无翻页采集方法
    • 6.2 图片下载配置常见问题
    • 6.3 导出发送常见问题(汇总)
      • 6.3.1 如何添加IP到白名单或安全组
      • 6.3.2 发送目标无对应字段选项解决方法
    • 6.4 账号登录相关问题
  • 七 采集经验与使用技巧(汇总)
  • Published with GitBook

七 采集经验与使用技巧(汇总)

简数导航: 简数首页   简数控制台

采集经验与使用技巧(汇总)

  1. 提取器技巧:点选采集内容时,定位不到区块问题解决方法

  2. 列表提取器获取特殊链接网址(如在onclick属性)

  3. 配置采集文章描述和关键词(description和keywords)

  4. Xpath简单用法

  5. 获取Cookie进行登录采集

  6. 简数翻译工具使用,支持百度、谷歌、阿里、腾讯、有道翻译和DeepL翻译接口

  7. 正则表达式常用语法

  8. 采集数据并使用百度翻译接口API进行翻译

  9. 简数采集器中使用阿里翻译接口API教程

  10. 采集数据并使用腾讯翻译接口API进行翻译

results matching ""

    No results matching ""