简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

按关键词采集(泛采集)

  按关键词采集可用于舆情监控、市场研究分析等。

  按关键词采集数据,采集搜索结果链接的内容(系统会智能识别),使用方法非常简单,只需输入对应关键词即可。

使用说明:

  1. 任务创建及配置
  2. 数据处理配置(可选)
  3. 高级搜索指令与技巧


1. 任务创建及配置:

  任务创建入口在控制台左侧【采集任务管理】列表中,点击【按关键词采集】

  任务配置:

  • 填写任务名:自定义命名,不能填写特殊符号;

  • 关键词:填写要采集的关键词

  • 采集页数:设置采集的页数,定时采集最多设置5页(一般情况,因搜索引擎索引更新频率不高,建议不使用定时或者延长定时间隔。);

  • 开始页数:设置采集的起始页,因为搜索结果的前几页可能广告和网站首页较多,导致采集入库的数据不多,建议用户一般设置第2页或者第3页开始采集;


2. 数据处理配置(可选)

  不需要对文章进行数据处理的可以跳过这一步!

  I、数据处理入口

  点击【配置处理】按钮进入数据处理配置页面;

  II、数据处理配置

  该功能其实就是详情提取器的字段数据处理配置,采集前可以对每个字段设置删除、替换等功能,采集时就会自动执行已设置的数据处理,详情可看详情提取器字段数据处理配置,完成设置后记得点击右上角保存;

   注意:该字段数据处理设置是对新采集入库的数据生效,之前已入库的数据无效;

  • 【已有数据链接】:可以忽略不填,直接设置字段数据处理配置的,对应填写的网址是该任务已采集入库数据的网址,可点击出现下拉列表选择其他已采集数据的网址;

  • 【测试数据处理】按钮:数据处理规则设置后,可点击【测试数据处理】,对【已有数据链接】对应的已采集入库数据直接执行规则;

  • 【查看该已有数据】按钮:查看【已有数据链接】对应的已采集入库数据,所以弹出的是简数预览&编辑数据界面;

  III、图片下载配置

  如需下载图片显示,请在“图片下载配置”中,选择暂存简数或阿里云OSS等云存储;


3. 高级搜索指令与技巧

  按关键词采集支持高级搜索指令:

  I、采集指定网站

  采集指定网站的文章指令:site:www.域名.com

  采集指定网站下指定关键词的文章指令(注意关键词和site指令之间有个空格):关键词 site:www.域名.com或者site:www.域名.com 关键词

  例如采集某网站下有php关键词的文章:php site:www.keydatas.com


简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

results matching ""

    No results matching ""