机器学习测试数据



我正在研究图像分类。对于CNN图像分类,是否可以使用验证数据作为测试数据?还是应该将数据分成三个部分(训练、验证、测试)?

通常,您使用模型选择的验证数据来查找最佳模型和/或超参数。测试数据用于从模型选择步骤中估计最佳模型的真实世界性能。不能让任何测试数据泄漏到验证数据中,反之亦然因为你会有过拟合的风险。

基本上:

  1. 在训练阶段时:训练数据
  2. 模型选择阶段:验证数据
  3. 测试阶段:然后您可以在测试数据上测试前一步的最佳模型,以获得真实世界的性能估计。

所有的数据集应该是不重叠的,理想情况下你不应该知道测试数据的任何属性。

最新更新