CNN图像分类,为一条记录使用多个输入图像



我有一个包含20,000的数据集汽车和80,000图像。

  • 每辆车由4张图片表示。
  • 10000辆车完好无损(第一个文件夹)
  • 10,000辆汽车受损,并且4张图片中至少有一张对汽车有明显的损坏(第二个文件夹)

在我的脑海中,我可以看到至少两种方法:

  1. 从四个图像中创建一个大图并创建一个矩阵表示
  2. 创建一个输入,其中一辆车(一个观察)由4个输入表示。
  3. 手动标记图像,汽车损坏的位置。

我个人倾向于选择2-但我不知道如何实现这个输入。

我想像使用RGB通道时那样堆叠图像,但我知道cnn正在深入研究,所以我认为这可能会在训练时导致一些问题。

有另一种方式实现多映像输入吗?所以对于一辆车(observation/car),我可以指定四个不同的矩阵?

__

编辑:

我只知道这辆车坏了。我现在知道哪些图像包含损坏的部分。

选项2使用4个通道应该工作,但它看起来过于复杂的问题,无论是从输入和训练的角度来看。选项1也是如此.

对我来说,你似乎想要一个识别损坏汽车图片的算法,对于这样的任务,我认为最好的方法是在一个通道上训练,标记每个图像。

选项3有很多优点:

  1. 将使模型变小。
  2. 将使培训更容易。
  3. 从1和2,你可以期望你花费的时间有更好的准确性。
  4. 将使您的模型对意外输入更健壮。

假设现在每辆车只有2或5张图片,或者只是在组中有一张不是汽车的图片,带有channel选项或"大矩阵";选项,你需要在上面制定一些策略来处理这些情况。

如果你制作一个通用的图片碰撞识别算法,你在一辆车的4或n张图片上运行它,只要其中一张显示损坏,那么你就可以预测损坏。

主要的缺点是标记10k图片似乎是一堆工作,但它们应该在一开始就被标记为一张图片,而不是在4个图片集群中。

其他选择可以开发一种无监督学习算法,在不使用标签的情况下发现损坏和未损坏汽车之间的差异,但如果已经有了标签,这也可能使火车更难,模型更复杂。

最新更新