JPEG压缩会使用卷积神经网络影响训练和分类



我们正在与一家在JPEG中拥有超过200万张图像的公司合作。他们想收集更多图像。图像的目的是机器分类,并找到小物体,例如螺栓和小漏水。图像数量很高,但训练的示例很小,也许只有100个或更少。

我们对公司的建议是将数据存储在原始的10或12位PNG/TIFF格式中。他们想使用JPEG格式,因为他们可以在较短的时间内收集更多数据(前4张图像),并且不需要所有磁盘空间。

有谁知道与PNG格式相比,JPEG的存储如何影响样品的培训,然后再查找/分类?

我已经与Google一起搜索。它返回了许多关于如何通过使用深度学习来提高JPEG质量的答案。其余的答案是关于如何使用互联网上使用图书馆来处理猫和狗。有一篇文章说jpeg压缩会影响识别,但对哪种图像,您要查找的对象类型等很少。

当您寻找诸如狗和猫之类的大物体时,您将拥有许多可以使用的功能,曲线,颜色,直方图和其他功能。寻找很小特征的非常小的物体更为复杂。

有人知道有关此主题的任何文章吗?关键问题:我应该将图像存储在PNG还是无损TIFF中,或者我可以使用JPEG压缩以稍后在深度学习中使用?

tl; dr:是的,但不是那么多。除非您考虑< 10 jpeg质量参数,否则应该是安全的。

更长的版本:

我强烈建议一篇文章称为了解图像质量如何影响深度神经网络。您可能会猜想作者检查了不同的扭曲(JPEG,JPEG 2000,Blur和噪声)如何影响常规CNN架构的性能(VGG,Alexnet,Googlenet)。

显然,所有测试的网络都以类似的方式进行,并且只有严重的JPEG压缩(质量< 10)会伤害它们。

唯一的事情是测试了Resnet家族的任何内容,但我不明白为什么它会大不相同。

您可以首先通过训练网络来尝试一下。由于您的数据集如此之少,我建议增加数据集或尝试使用其他方法,例如无监督的学习/强化学习等。

关于质量损失,您可以快速实验。拍摄图像并将其保存为JPG和PNG。然后,将两个加载为数组并检查差异并可视化。您会注意到它看起来像图像上的噪音。

那么,这意味着什么?

如果您的推论成功率甚至受到如此多的噪音的影响,那么您最好采取一些预防措施来防止过度拟合。我们期望良好的CNN设计学习"有意义的功能",并在图像中抑制"噪音"。

求助于JPG,并增强网络的过度拟合问题(如果有)。

如果数据相同,则存储在哪种格式中无关紧要。但是,当然,jpeg是有损的,可能会丢失一些信息,这可能会带来较低的精度(但没有显着的变化),这也可能是由于随机重量初始化

,但这并不重要,因为损失不是太多,并且图像仍然可以识别为人类的眼睛。实际上,如果图像太多,JPEG也许是一个更好的主意,因为它需要更少的空间。

最新更新