JPEG压缩会使用卷积神经网络影响训练和分类

我们正在与一家在JPEG中拥有超过200万张图像的公司合作。他们想收集更多图像。图像的目的是机器分类，并找到小物体，例如螺栓和小漏水。图像数量很高，但训练的示例很小，也许只有100个或更少。

我们对公司的建议是将数据存储在原始的10或12位PNG/TIFF格式中。他们想使用JPEG格式，因为他们可以在较短的时间内收集更多数据（前4张图像），并且不需要所有磁盘空间。

有谁知道与PNG格式相比，JPEG的存储如何影响样品的培训，然后再查找/分类？

我已经与Google一起搜索。它返回了许多关于如何通过使用深度学习来提高JPEG质量的答案。其余的答案是关于如何使用互联网上使用图书馆来处理猫和狗。有一篇文章说jpeg压缩会影响识别，但对哪种图像，您要查找的对象类型等很少。

。

当您寻找诸如狗和猫之类的大物体时，您将拥有许多可以使用的功能，曲线，颜色，直方图和其他功能。寻找很小特征的非常小的物体更为复杂。

有人知道有关此主题的任何文章吗？关键问题：我应该将图像存储在PNG还是无损TIFF中，或者我可以使用JPEG压缩以稍后在深度学习中使用？

tl; dr：是的，但不是那么多。除非您考虑＆lt; 10 jpeg质量参数，否则应该是安全的。

更长的版本：

我强烈建议一篇文章称为了解图像质量如何影响深度神经网络。您可能会猜想作者检查了不同的扭曲（JPEG，JPEG 2000，Blur和噪声）如何影响常规CNN架构的性能（VGG，Alexnet，Googlenet）。

显然，所有测试的网络都以类似的方式进行，并且只有严重的JPEG压缩（质量＆lt; 10）会伤害它们。

唯一的事情是测试了Resnet家族的任何内容，但我不明白为什么它会大不相同。

您可以首先通过训练网络来尝试一下。由于您的数据集如此之少，我建议增加数据集或尝试使用其他方法，例如无监督的学习/强化学习等。

关于质量损失，您可以快速实验。拍摄图像并将其保存为JPG和PNG。然后，将两个加载为数组并检查差异并可视化。您会注意到它看起来像图像上的噪音。

那么，这意味着什么？

如果您的推论成功率甚至受到如此多的噪音的影响，那么您最好采取一些预防措施来防止过度拟合。我们期望良好的CNN设计学习"有意义的功能"，并在图像中抑制"噪音"。

求助于JPG，并增强网络的过度拟合问题（如果有）。

如果数据相同，则存储在哪种格式中无关紧要。但是，当然，jpeg是有损的，可能会丢失一些信息，这可能会带来较低的精度（但没有显着的变化），这也可能是由于随机重量初始化

，但这并不重要，因为损失不是太多，并且图像仍然可以识别为人类的眼睛。实际上，如果图像太多，JPEG也许是一个更好的主意，因为它需要更少的空间。

相关内容