简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

图片下载设置常见问题

  1. 图片存储到阿里云oss不显示问题
  2. 如何删除暂存的图片?
  3. 如何采集到图片?
  4. 图片重复问题
  5. 如何设置只采集有图片的文章?
  6. 如果图片地址在特殊属性,怎么设置获取?
  7. Ftp回传常见问题及解决
  8. 图片添加水印方法


1.图片存储到阿里云oss不显示问题

  直接复制图片地址访问,出现

解决:在阿里云对象管理中,选择你自己的bucket--》基础设置--》读写权限--》设置--》公共读


2.如何删除暂存的图片?

  图片暂存是有存储空间限制,如果满了就需要删除掉已经不用的图片,腾出空间才能采集新的图片;

  • 删除单个任务里的图片:进入某个任务的【结果数据&导出发送】栏目 ==》 点击【更多操作】按钮 ==》 在下拉列表中点击【清空本任务图片】;


  • 清空所有任务的图片:点击左侧列的【账户及套餐余量】 ==》 点击显示图片存储空间格中的清空 ==》 等待系统删除图片,可能需要几分钟 ==》最后点击下【重新统计各项数据】按钮,过1分钟后刷新页面即可;


3. 如何采集到图片?

  图片在网页里是HTML代码的img标签,所以要想采集到图片,这个字段首先得设置【获取Html】,才会保留HTML标签;

  Xpath路径不能是img结尾,应该是img标签的上一层标签(或者更上多层标签也行),这个标签里面包含了img标签,所以就能采集到图片了,可以巧用【扩大点选区域】按钮;


4. 图片重复问题

  采集的数据每张图片都重复显示了,一张变成两张了,但是原文章是正常的。

  一般这种情况,其实原文也是有两张重复的图片,只是其中一张被隐藏了,可以通过以下设置来解决图片重复问题的:

  I、先保留noscript标签(在详情提取器字段数据处理);

  II、再删除全部noscript标签,即可删除重复的图片;


5. 如何设置只采集有图片的文章?

  如果只要采集有图片的文章,不采集没有图片的文章,可以这样设置:详情提取器进入content字段的数据处理 --》选择【内容过滤】--》在【内容必须包含】处填写<img即可,最好保存;


6. 如果图片地址在特殊属性,怎么设置获取?

  网页标准规范的图片地址是在img标签的src属性:   <img src="图片地址">

  有些网站为了延迟加载图片,加快网页加载速度会将图片地址设置在自定义的属性,可能会导致采集时获取图片地址失败。

  这时我们可以在浏览器(例如chrome,火狐中)打开页面,右键查看网页源代码,用搜索功能(ctrl+F5)查看图片真实地址;

  例如:<img origin-src="图片地址">

  上面例子图片地址在origin-src属性,打开详情提取器,content字段的【字段数据处理】--》【高级提取】--》在【图片链接属性】填写origin-src


7. Ftp回传常见问题及解决

  Ftp回传图片失败,请排除以下常见错误问题:

    1) 【默认上传根目录】栏,前后必须以/ 开头和结尾;

    2) 【默认上传根目录】栏,对应用户ftp设置的首目录,而不是服务器根目录,请先确认ftp功能设置的首目录;

    3) 主动模式(PORT)一般不勾上,该模式需要用户服务器端的Ftp支持且需另外修改原Ftp的设置;

    4) Ftp回传目录(文件夹)的读写权限问题,请赋予对应的目录(文件夹)755权限再尝试(对应命令为chmod -R 755 你的目录名);

    5) 检查服务器防火墙20、21端口是否放开;

    6) 宝塔面板需检查被动端口39000-40000是否放行 。(阿里云、腾讯云等还需检查安全组规则)

    7) 宝塔面版内外网站ip问题导致无法连接,解决方法:

    修改Ftp配置文件(/www/server/pure-ftpd/etc/pure-ftpd.conf),找到这行代码

    # ForcePassiveIP 192.168.0.1(188行左右)

    去掉#号,然后修改为

    ForcePassiveIP 你的外网ip


8. 图片添加水印方法

  简数采集器的图片下载存储到阿里云OSS,腾讯云,七牛云,又拍云等,可以设置添加图片水印:详细操作请查看【如何为阿里云oss图片添加水印】


简数导航:简数首页  简数控制台  采集入门教程  数据导出发送  采集翻译

results matching ""

    No results matching ""