简数导航: 简数采集   简数控制台   如何使用简数SEO工具

关键词泛采集(搜索引擎)

  关键词泛采集通过搜索引擎(百度)搜索关键词,采集搜索结果链接的内容(系统会智能识别标题、正文、日期等),使用方法非常简单,只需输入对应关键词即可。

使用步骤:

  1. 任务创建及配置
  2. 数据处理配置(可选)
  3. 采集结果
  4. 百度高级搜索指令与技巧


1. 任务创建及配置:

  任务创建入口在控制台左侧【采集任务管理】列表中,点击【关键词泛采集(搜索引擎)】;

  任务配置:

  • 填写任务名:自定义命名,不能填写特殊符号;

  • 关键词:填写要采集的关键词,例如:java高级教程

    • 可填写多组关键词,每组关键词用分号;隔开(是英文半角分号),例如:华为手机安全设置;宝马与奔驰对比;电脑与手机生产力对比
    • 支持百度高级搜索指令:例如要指定某网站:site:www.xxxxx.com,点击查看更多百度高级搜索指令与技巧
  • 采集页数:设置采集的页数,定时采集最多设置5页(一般情况,因搜索引擎索引更新频率不高,建议不使用定时或者延长定时间隔。);

  • 搜索方式:暂时只支持通过百度搜索引擎采集关键词;


2. 数据处理配置(可选)

  不需要对文章进行数据处理的可以跳过这一步!

  I、数据处理入口

  点击【配置数据替换、填充、删除等】按钮进入数据处理配置页面;

  II、数据处理配置

  该功能其实就是详情提取器的字段数据处理配置,采集前可以对每个字段设置删除、填充、替换等功能,点选不同字段名来切换对应的字段数据处理配置,采集时就会自动执行已设置的数据处理,详情可看详情提取器字段数据处理配置,完成设置后记得点击右上角保存;

   注意:该字段数据处理设置是对新采集入库的数据生效,之前已入库的数据无效;

  • 【已有数据链接】:可以忽略不填,直接设置字段数据处理配置的,对应填写的网址是该任务已采集入库数据的网址,可点击出现下拉列表选择其他已采集数据的网址;

  • 【测试数据处理】按钮:数据处理规则设置后,可点击【测试数据处理】,对【已有数据链接】对应的已采集入库数据直接执行规则,而不是重新采集一次再执行规则;

  • 【查看该已有数据】按钮:查看【已有数据链接】对应的已采集入库数据,所以弹出的是简数预览&编辑数据界面;

  III、图片下载配置

  关键词泛采集的原始图片有可能是无法正常显示的(防盗链),如需图片,请在“图片下载配置”中,选择暂存简数或阿里云OSS或七牛存储;


3. 采集结果:

  默认采集字段:

  标题、内容、发布时间、作者、标签、分类、描述、关键词、网站域名(x_id);


注意事项:

  • 每月请求搜索列表的次数有限制。

  • 不管是否获取到数据,每次请求搜索的采集列表页数都计入每月的次数(非详情数量),请注意控制采集页量和启动频率。

  • 本功能先通过搜索引擎采集结果链接,再使用智能算法抽取结果链接的里面的内容入库,因此会受代理服务,智能算法准备性、搜索引擎页面调整的影响,采集到的数据数量和内容准确性都可能不可控。

  • 理论上每次搜索请求可以获取到10条左右的详情,请以实际获取入库为准。

  • 采集内容智能识别时,如果标题为空,则该记录不会入库。

  • 如发现问题或者提出建议,请随时联系我们(QQ:3043176563或3071166977)。


4. 百度高级搜索指令与技巧

  关键词泛采集支持百度高级搜索指令:

  I、采集指定网站

  采集指定网站的文章指令:site:www.xxxxx.com

  采集指定网站下指定关键词的文章指令(注意关键词和site指令之间有个空格):关键词 site:www.xxxxx.com或者site:www.xxxxx.com 关键词

  例如采集博客园下有php关键词的文章:php site:www.cnblogs.com


简数导航: 简数采集   简数控制台   如何使用简数SEO工具

results matching ""

    No results matching ""