CNN图像分类，为一条记录使用多个输入图像

我有一个包含20,000的数据集汽车和80,000图像。

在我的脑海中，我可以看到至少两种方法:

我个人倾向于选择2-但我不知道如何实现这个输入。

我想像使用RGB通道时那样堆叠图像，但我知道cnn正在深入研究，所以我认为这可能会在训练时导致一些问题。

有另一种方式实现多映像输入吗?所以对于一辆车(observation/car)，我可以指定四个不同的矩阵?

编辑:

我只知道这辆车坏了。我现在知道哪些图像包含损坏的部分。

选项2使用4个通道应该工作，但它看起来过于复杂的问题，无论是从输入和训练的角度来看。选项1也是如此.

对我来说，你似乎想要一个识别损坏汽车图片的算法，对于这样的任务，我认为最好的方法是在一个通道上训练，标记每个图像。

选项3有很多优点:

假设现在每辆车只有2或5张图片，或者只是在组中有一张不是汽车的图片，带有channel选项或"大矩阵";选项，你需要在上面制定一些策略来处理这些情况。

如果你制作一个通用的图片碰撞识别算法，你在一辆车的4或n张图片上运行它，只要其中一张显示损坏，那么你就可以预测损坏。

主要的缺点是标记10k图片似乎是一堆工作，但它们应该在一开始就被标记为一张图片，而不是在4个图片集群中。

其他选择可以开发一种无监督学习算法，在不使用标签的情况下发现损坏和未损坏汽车之间的差异，但如果已经有了标签，这也可能使火车更难，模型更复杂。

相关内容