简数导航: 简数采集器   简数控制台  

图片下载设置常见问题

  1. 图片存储到阿里云oss不显示问题
  2. 如何删除暂存的图片?
  3. 如何采集到图片?
  4. 图片重复问题
  5. 如何设置只采集有图片的文章?


1.图片存储到阿里云oss不显示问题

  直接复制图片地址访问,出现

解决:在阿里云对象管理中,选择你自己的bucket--》基础设置--》读写权限--》设置--》公共读


2.如何删除暂存的图片?

  图片暂存是有存储空间限制,如果满了就需要删除掉已经不用的图片,腾出空间才能采集新的图片;

  • 删除单个任务里的图片:进入某个任务的【结果数据&导出发送】栏目 ==》 点击【更多操作】按钮 ==》 在下拉列表中点击【清空本任务图片】;


  • 清空所有任务的图片:点击左侧列的【账户及套餐余量】 ==》 点击显示图片存储空间格中的清空 ==》 等待系统删除图片,可能需要几分钟 ==》最后点击下【重新统计各项数据】按钮,过1分钟后刷新页面即可;


3. 如何采集到图片?

  图片在网页里是HTML代码的img标签,所以要想采集到图片,这个字段首先得设置【获取Html】,才会保留HTML标签;

  Xpath路径不能是img结尾,应该是img标签的上一层标签(或者更上多层标签也行),这个标签里面包含了img标签,所以就能采集到图片了,可以巧用【扩大点选区域】按钮;


4. 图片重复问题

  采集的数据每张图片都重复显示了,一张变成两张了,但是原文章是正常的。

  一般这种情况,其实原文也是有两张重复的图片,只是其中一张被隐藏了,可以通过以下设置来解决图片重复问题的:

  I、先保留noscript标签;

  II、再删除全部noscript标签,即可删除重复的图片;


5. 如何设置只采集有图片的文章?

  如果只要采集有图片的文章,不采集没有图片的文章,可以这样设置:详情提取器进入content字段的数据处理 --》选择【内容过滤】--》在【内容必须包含】处填写<img即可,最好保存;


简数导航: 简数采集器   简数控制台

results matching ""

    No results matching ""