是否有任何特定的数据行为导致过拟合和拟合不足



由于我是数据科学的新手,我只想知道是否有任何特定的数据行为会导致过度拟合和/或拟合不足?因为如果我们处理线性回归,我们应该通过梯度下降得到最佳拟合线。现在,我们如何才能得到过度拟合或拟合不足?我知道什么是过拟合和欠拟合,但问题是,当你已经应用梯度下降来获得最佳拟合线时,怎么可能呢。顺便说一句,我希望我的问题能向所有人澄清。

谢谢和问候。

数据中样本数量较少可能是模型过度拟合的主要原因。即使你的模型很简单,数据样本中较小的方差(或变化(也会让模型学会"只"对这些样本表现良好,而且可能不会很好地泛化。

我们可以通过查看特征数量、训练误差以及测试误差来检测线性模型上的过拟合。

如果模型过拟合:
1。为训练提供了足够的数据,即用于训练的更多特征
2.训练误差比测试误差小得多。

如果模型不合适:
1。为训练提供的数据较少,即用于训练的特征数量较少
2.测试误差比训练误差小得多。

使用渐变下降是一个不错的选择。但它可能会导致过度拟合,并在实际生活数据上失败。

希望这能有所帮助。

最新更新