我手头有一个图像检索任务。我有一个数据集,每个类的图像不多,所以我最终用 Keras 博客的一些灵感来扩充数据集(类中每个图像 3 个副本)。我在sklearn
中使用了train_test_split
方法来拆分从增强数据集生成的数据集。现在,由于这是随机拆分,因此在测试时,用于测试的图像有可能正在针对其自己的增强对应图像进行测试,例如,根据其原始图像测试翻转和略微倾斜的图像。在这种情况下,结果是否有可能出现偏差?除了获取仅用于测试的新数据之外,有没有办法克服这个问题。
是的,这被称为"泄漏",除非数据增强转换非常激进,以至于生成的图像可能与真实的测试集相似,否则最好在进行增强之前拆分训练集/测试集,并且只在训练集中进行增强。