采集启动

  任务采集启动,让系统按照配置的规则去获取相关数据信息。

索引:

  1. 任务采集启动
  2. 定时采集
  3. 网络配置
  4. 批量启动采集

1. 任务采集启动

  进入某个任务中,点击右上角的【启动 | 定时采集】按钮,进入启动采集界面:

  • 重复数据处理:可设置跳过不再采集或覆盖已存在数据,插入新版本暂时不能使用;建议使用跳过不再采集,避免反复采集相同数据,浪费时间与资源。

  注意:如果要采集已删除的数据需选择覆盖已存在数据,因为系统对已采集过的数据有记录,不管有无删除;

  • 每次采集最大数量:每次都是采集排在前面n条(设置的数量)链接的数据,并不会按顺序往下取链接直到采集n条才结束,默认是0(即不限制数量);

  例子:设置每次采集最大数量10条,重复数据处理跳过不再采集,第一次启动采集,结果获取10条数据入科,若再启动第二次采集,采集目标站没有更新内容,则此时采集新入库数据为0条,采集结果还是原来第一次的10条数据;

  • 保存按钮只是保存配置信息,并不会启动采集,需点击【启动 | 定时】按钮才会启动任务采集;


2. 定时采集

  定时方式可设置仅采集一次,每天,每周,每间隔多少小时自动运行采集任务;详细教程请看2.7 定时采集+自动发布


3. 网络配置

  网络配置处可设置ip代理,页面编码,模拟各种浏览器等功能。

  • ip代理:默认是使用简数代理采集,可选择使用自提供代理ip的(目前只支持http代理ip,socket5和https不支持);

  提示:简数代理采集间隔是3秒,有多个ip轮换。起码30秒以上一次。(针对单个任务)

  • 页面编码:默认自动识别,一般不用改动,系统会自动识别;

  • User-Agent:采集时模拟哪种浏览器去采集信息,可点击下方常用的User-Agent按钮,也可自行填写(例如手机端);

  • Cookie:支持登录采集,需用户自己获取cookie,获取cookie可参考:使用fiddler获取网站Cookie,并应用到简数采集

  注意:不要把有cookie的任务复制给其它人,很危险,拿到cookie就可以登录你帐号了。


4. 批量启动采集

  可以一次启动多个任务采集,在任务列表处先勾选任务,再点击【更多操作按钮】中的批量启动。


简数导航: 简数采集   简数控制台   如何使用简数SEO工具   微信公众号文章采集   今日头条采集  

results matching ""

    No results matching ""