有关机器学习的基本查询

我正在工作卷积神经网络，并比较其他方法，例如猪。

使用这两种方法完成二进制分类后，我得到了这些结果：

猪方法：

培训准确性：83％
测试准确性：62％

CNN方法：

训练准确性：100％
验证精度：91％
测试准确性：85％

我的问题是，这些方法都过于适应培训吗？

这两种方法都表现出过度拟合，您实际上无法完全避免。关键是将其降至最低。我对猪并不熟悉，但是对于CNN而言，有几种常见的方法可以最大程度地减少过度拟合，例如退学，批处理规范化，早期停止和交叉验证。当然，良好的数据，这意味着要训练的大量数据尽可能多样化。

可以看到训练时期的训练进度：训练和测试精度旁边是一个好主意。一开始，这两个损失都会变小，但最终测试损失将增加。这就是您应该停止训练的点，因为所有进一步的努力只会以更好的训练准确性领先。CNN从形象上讲，心脏地学习训练样本。培训样本的100％精度表明您的情况发生了。

这两个模型都表现出过度拟合（训练和测试精度之间的巨大差距）。如今，有无数过度适应的策略。您应该先尝试一下。我还建议您在使用前要充分地将数据集洗净，因为有时类似的图像可以转到训练集并防止模型良好的概括。换句话说，训练图像将比测试图像"容易"。

两个模型都显示出相似的结果，这是过度拟合的症状：

当模型在训练数据中学习细节和噪音时，会发生过度拟合，以至于对模型对新数据的性能产生负面影响。这意味着该模型将训练数据中的噪声或随机波动作为现实（真实数据）学习。问题在于这些噪声数据不适用于新数据，因此模型无法概括。

我发现本文很好地解释了，您可以看看。

相关内容