在增强数据集中生成测试集

我手头有一个图像检索任务。我有一个数据集，每个类的图像不多，所以我最终用 Keras 博客的一些灵感来扩充数据集（类中每个图像 3 个副本）。我在sklearn中使用了train_test_split方法来拆分从增强数据集生成的数据集。现在，由于这是随机拆分，因此在测试时，用于测试的图像有可能正在针对其自己的增强对应图像进行测试，例如，根据其原始图像测试翻转和略微倾斜的图像。在这种情况下，结果是否有可能出现偏差？除了获取仅用于测试的新数据之外，有没有办法克服这个问题。

是的，这被称为"泄漏"，除非数据增强转换非常激进，以至于生成的图像可能与真实的测试集相似，否则最好在进行增强之前拆分训练集/测试集，并且只在训练集中进行增强。

相关内容

最新更新

热门标签：