图像数据增强



我正在做一个计算机视觉项目,我需要应用数据扩充。我有三个班:两个班有500张图片,一个班有1000张图片。我将通过数据增强生成多个版本的图像,例如,我是否应该对两个第一类应用3个随机变换,以获得总共2000个图像,而对最后一类仅应用一个变换,以具有总共2000个类?最后,数据扩充应该应用于整个数据集,然后将其分离为训练和测试,或者将其分离,然后将扩充应用于训练数据集。谢谢

数据增强仅应用于训练集。不要触摸测试集。

在训练中随机应用增广。因此,特定的图像可以在特定的历元中被增强,也可以不被增强。

没有必要为了处理阶级失衡而单独对待阶级。类不平衡是用适当的损失函数来处理的,例如视网膜内的交叉熵或焦点损失函数。

为了进行适当的训练,您应该将数据库划分为3个集:训练集、验证集和测试集。测试集是你的黄金标准,你在训练中不应该碰它。在计算度量时,您可以在推理时使用它。

验证集是一种";支持集";在训练期间。您可以使用它来优化超参数,如学习率或批量大小。

一种可能的算法可以是:

  1. 将数据库拆分为3个集,其中70%的图像在训练集中,15%在验证集中,以及15%在测试集中。每个类都应该在每个集合中表示
  2. 确定在训练集上训练并在验证集上验证的最佳超参数。这将减少过拟合的可能性
  3. 使用点2的超参数在训练+验证集上重试模型,并在测试集上进行评估

数据扩充/过采样应仅应用于训练集
3。它们用于推广您的模型,即在这种情况下,学习狗与猫图像分类问题中的猫耳朵或狗鼻子等一般模式。

相关内容

  • 没有找到相关文章

最新更新