图片下载设置常见问题
1.图片存储到阿里云oss不显示问题
直接复制图片地址访问,出现
解决:在阿里云对象管理中,选择你自己的bucket--》基础设置--》读写权限--》设置--》公共读
2.如何删除暂存的图片?
图片暂存是有存储空间限制,如果满了就需要删除掉已经不用的图片,腾出空间才能采集新的图片;
- 删除单个任务里的图片:进入某个任务的【结果数据&导出发送】栏目 ==》 点击【更多操作】按钮 ==》 在下拉列表中点击【清空本任务图片】;
- 清空所有任务的图片:点击左侧列的【账户及套餐余量】 ==》 点击显示图片存储空间格中的清空 ==》 等待系统删除图片,可能需要几分钟 ==》最后点击下【重新统计各项数据】按钮,过1分钟后刷新页面即可;
3. 如何采集到图片?
图片在网页里是HTML代码的img标签,所以要想采集到图片,这个字段首先得设置【获取Html】,才会保留HTML标签;
Xpath路径不能是img结尾,应该是img标签的上一层标签(或者更上多层标签也行),这个标签里面包含了img标签,所以就能采集到图片了,可以巧用【扩大点选区域】按钮;
4. 图片重复问题
采集的数据每张图片都重复显示了,一张变成两张了,但是原文章是正常的。
一般这种情况,其实原文也是有两张重复的图片,只是其中一张被隐藏了,可以通过以下设置来解决图片重复问题的:
5. 如何设置只采集有图片的文章?
如果只要采集有图片的文章,不采集没有图片的文章,可以这样设置:详情提取器进入content字段的数据处理 --》选择【内容过滤】--》在【内容必须包含】处填写<img
即可,最好保存;