简数采集器文档中心
基本概念
列表页
详情页(内容页)
一 新手入门
采集入门教程
采集视频教程
系统使用流程简介
二 数据采集
2.1 创建采集任务
2.2 列表提取器(网址采集规则)
2.2.1 列表翻页配置(批量网址采集)
2.2.2 JS异步加载数据配置
2.2.3 Json提取网址
2.2.4 Sitemap提取网址
2.2.5 特殊网页提取网址
2.3 详情提取器(内容采集规则)
2.3.1 图片&链接删除
2.3.2 字符替换(支持正则)
2.3.3 常用截取&提取
2.3.4 内容填充&随机值&固定值
2.3.5 内容过滤排除(屏蔽词)
2.3.6 HTML标签过滤
2.3.7 更多字段数据处理配置
2.3.8 内容分页(详情分页)
2.3.9 下级页面(跳转子页面)
2.4 图片下载及云存储
2.4.1 云存储(阿里、腾讯、七牛云、又拍云)
2.4.2 图片暂存
2.4.3 图片下载配置常见问题
2.5 采集启动
2.6 定时自动采集和发送
2.6.1 自动采集和导出发送
2.6.2 定时发送
2.6.3 全自动化配置
2.7 按关键词采集(泛采集)
2.8 书签采集(随时单页采集)
2.9 无限循环采集
2.10 数据处理设置(采集前)
2.11 数据处理工具(采集后)
三 数据导出发送
3.1 数据导出为excel、sql和html等
3.2 发送到数据库
3.3 发送到自定义http接口
3.4 导出发送到CMS
3.5 定时导出发送
3.6 收集发送后的摘要信息
四 翻译和第三方API(含AI)
4.1 采集翻译工具
4.1.1 百度翻译API接口
4.1.2 腾讯云翻译API接口
4.1.3 阿里云翻译API接口
4.1.4 DeepL翻译API接口
4.2 简繁体转换
4.3 接入第三方API(含AI)
4.3.1 百度AI-文心一言API
4.3.2 讯飞AI-星火大模型API
4.3.3 阿里AI-通义千问大模型
4.3.4 Kimi AI大模型API
4.3.5 字节AI-豆包大模型API
4.3.6 智谱AI大模型API
4.3.7 5118 API接入
4.3.8 常用的AI指令
4.4 AI生成创作视频教程
4.5 AI根据关键词生成文章
五 SEO处理规则
5.1 字段添加关键词
5.2 字段中的词加链接
5.3 字段添加链接段落
5.4 规则词库及段落库
5.5 摘要内容库
六 数据汇总库(支持导入)
5.1 汇总库管理
5.2 汇总库创建和使用
5.3 导入任务数据
5.4 上传导入Excel、Txt...
七 常见问题FAQ
6.1 简数采集常见问题(汇总)
6.1.1 重新采集时,采集不到数据的解决方法
6.1.2 采集内容没有排版解决方法
6.1.3 采集内容有乱码解决方法
6.1.4 采集内容为空时不采集设置方法
6.1.5 无列表页翻页采集方法
6.1.6 获取到多余网址解决方法
6.2 图片下载配置常见问题
6.3 导出发送常见问题(汇总)
6.3.1 如何添加IP到白名单或安全组
6.3.2 发送目标无对应字段选项解决方法
6.3.3 发送到多分类(栏目)
6.4 账号登录相关问题
七 采集经验与使用技巧(汇总)
Published with GitBook
基本概念
基本概念
本章介绍
简数采集器
的一些基本概念。
基本概念
列表页
:指分类栏目或目录等页面,通常包含多个标题链接;
详情页
:包含具体内容的页面;
列表提取器
:主要用于提取多个详情页链接(即设置网址采集规则);
详情提取器
:提取详情页中的内容,可视化采集和自动生成提取规则,无需看页面源代码,简单快捷完成采集规则配置;
简数导航:
简数首页
简数控制台
采集入门教程
数据导出发送
采集翻译
results matching "
"
No results matching "
"