简数导航:简数首页 简数控制台 采集入门教程 数据导出发送 采集翻译
图片下载设置常见问题
- 图片存储到阿里云oss不显示问题
- 如何删除暂存的图片?
- 如何采集到图片?
- 图片重复问题
- 如何设置只采集有图片的文章?
- 如果图片地址在特殊属性,怎么设置获取?
- Ftp回传常见问题及解决
- 图片添加水印方法
1.图片存储到阿里云oss不显示问题
直接复制图片地址访问,出现
解决:在阿里云对象管理中,选择你自己的bucket--》基础设置--》读写权限--》设置--》公共读
2.如何删除暂存的图片?
图片暂存是有存储空间限制,如果满了就需要删除掉已经不用的图片,腾出空间才能采集新的图片;
- 删除单个任务里的图片:进入某个任务的【结果数据&导出发送】栏目 ==》 点击【更多操作】按钮 ==》 在下拉列表中点击【清空本任务图片】;
- 清空所有任务的图片:点击左侧列的【账户及套餐余量】 ==》 点击显示图片存储空间格中的清空 ==》 等待系统删除图片,可能需要几分钟 ==》最后点击下【重新统计各项数据】按钮,过1分钟后刷新页面即可;
3. 如何采集到图片?
图片在网页里是HTML代码的img标签,所以要想采集到图片,这个字段首先得设置【获取Html】,才会保留HTML标签;
Xpath路径不能是img结尾,应该是img标签的上一层标签(或者更上多层标签也行),这个标签里面包含了img标签,所以就能采集到图片了,可以巧用【扩大点选区域】按钮;
4. 图片重复问题
采集的数据每张图片都重复显示了,一张变成两张了,但是原文章是正常的。
一般这种情况,其实原文也是有两张重复的图片,只是其中一张被隐藏了,可以通过以下设置来解决图片重复问题的:
I、先保留noscript标签(在详情提取器字段数据处理);
5. 如何设置只采集有图片的文章?
如果只要采集有图片的文章,不采集没有图片的文章,可以这样设置:详情提取器进入content字段的数据处理 --》选择【内容过滤】--》在【内容必须包含】处填写<img
即可,最好保存;
6. 如果图片地址在特殊属性,怎么设置获取?
网页标准规范的图片地址是在img标签的src属性:
<img src="图片地址">
有些网站为了延迟加载图片,加快网页加载速度会将图片地址设置在自定义的属性,可能会导致采集时获取图片地址失败。
这时我们可以在浏览器(例如chrome,火狐中)打开页面,右键查看网页源代码,用搜索功能(ctrl+F5)查看图片真实地址;
例如:<img origin-src="图片地址">
上面例子图片地址在origin-src
属性,打开详情提取器,content字段的【字段数据处理】--》【高级提取】--》在【图片链接属性】填写origin-src
7. Ftp回传常见问题及解决
Ftp回传图片失败,请排除以下常见错误问题:
1) 【默认上传根目录】栏,前后必须以/
开头和结尾;
2) 【默认上传根目录】栏,对应用户ftp设置的首目录,而不是服务器根目录,请先确认ftp功能设置的首目录;
3) 主动模式(PORT)一般不勾上,该模式需要用户服务器端的Ftp支持且需另外修改原Ftp的设置;
4) Ftp回传目录(文件夹)的读写权限问题,请赋予对应的目录(文件夹)755
权限再尝试(对应命令为chmod -R 755 你的目录名
);
5) 检查服务器防火墙20、21端口是否放开;
6) 宝塔面板需检查被动端口39000-40000是否放行 。(阿里云、腾讯云等还需检查安全组规则)
7) 宝塔面版内外网站ip问题导致无法连接,解决方法:
修改Ftp配置文件(/www/server/pure-ftpd/etc/pure-ftpd.conf
),找到这行代码
# ForcePassiveIP 192.168.0.1
(188行左右)
去掉#
号,然后修改为
ForcePassiveIP 你的外网ip
8. 图片添加水印方法
简数采集器的图片下载存储到阿里云OSS,腾讯云,七牛云,又拍云等,可以设置添加图片水印:详细操作请查看【如何为阿里云oss图片添加水印】