简数导航:简数首页 简数控制台 采集入门教程 数据导出发送 采集翻译
按关键词采集(泛采集)
按关键词采集可用于舆情监控、市场研究分析等。
按关键词采集数据,采集搜索结果链接的内容(系统会智能识别),使用方法非常简单,只需输入对应关键词即可。
使用说明:
1. 任务创建及配置:
任务创建入口在控制台左侧【采集任务管理】列表中,点击【按关键词采集】;
任务配置:
填写任务名:自定义命名,不能填写特殊符号;
关键词:填写要采集的关键词
- 可填写多组关键词,每组关键词用分号;隔开(是英文半角分号);
- 支持高级搜索指令:例如要指定某网站:site:www.域名.com,点击查看更多高级搜索指令与技巧;
采集页数:设置采集的页数,定时采集最多设置5页(一般情况,因搜索引擎索引更新频率不高,建议不使用定时或者延长定时间隔。);
开始页数:设置采集的起始页,因为搜索结果的前几页可能广告和网站首页较多,导致采集入库的数据不多,建议用户一般设置第2页或者第3页开始采集;
2. 数据处理配置(可选)
不需要对文章进行数据处理的可以跳过这一步!
I、数据处理入口
点击【配置处理】按钮进入数据处理配置页面;
II、数据处理配置
该功能其实就是详情提取器的字段数据处理配置,采集前可以对每个字段设置删除、替换等功能,采集时就会自动执行已设置的数据处理,详情可看详情提取器字段数据处理配置,完成设置后记得点击右上角保存;
注意:该字段数据处理设置是对新采集入库的数据生效,之前已入库的数据无效;
【已有数据链接】:可以忽略不填,直接设置字段数据处理配置的,对应填写的网址是该任务已采集入库数据的网址,可点击出现下拉列表选择其他已采集数据的网址;
【测试数据处理】按钮:数据处理规则设置后,可点击【测试数据处理】,对【已有数据链接】对应的已采集入库数据直接执行规则;
【查看该已有数据】按钮:查看【已有数据链接】对应的已采集入库数据,所以弹出的是简数预览&编辑数据界面;
III、图片下载配置
如需下载图片显示,请在“图片下载配置”中,选择暂存简数或阿里云OSS等云存储;
3. 高级搜索指令与技巧
按关键词采集支持高级搜索指令:
I、采集指定网站
采集指定网站的文章指令:site:www.域名.com
采集指定网站下指定关键词的文章指令(注意关键词和site指令之间有个空格):关键词 site:www.域名.com
或者site:www.域名.com 关键词
例如采集某网站下有php关键词的文章:php site:www.keydatas.com