噪声数据集的多项式回归

我想知道我是否可以在问题上得到一些帮助。

我正在为我的一个前实验室创建一个工具，该工具使用来自基于物理的机器（大量噪声）的数据，结果为简单的 x、y 坐标。我想确定数据集的局部最大值，但是，由于集合中有一堆噪声，因此您不能只检查点之间的斜率来确定峰值。

为了解决这个问题，我正在考虑使用多项式回归来"平滑"数据集，然后从结果模型中确定局部最大值。

我已经浏览了这个链接但是，http://scikit-learn.org/stable/auto_examples/linear_model/plot_polynomial_interpolation.html，它只告诉您如何创建紧密匹配的模型。它不会告诉您是否有一个集成的指标来衡量哪个是最佳模型。我应该通过卡方来做到这一点吗？或者是否有其他指标效果更好或集成到scikit-learn套件中？

链接向您展示了

如何在多项式特征之上构建岭回归。因此，这不是一个"紧密拟合"，因为您可以通过正则化（alpha 参数）来控制它 - 在参数之上。现在，"最佳模型"是什么意思 - 最佳回归有无限多个可能的标准，每个标准都通过不同的标准进行测试。你需要回答自己——你感兴趣的措施是什么。应该是光滑度和紧密健身之间的某种"黄金比例"吗？或者，也许您想要一个最多一些平滑度的模型，以最小化一些误差度量（到点的平均平方距离？另一种方法是测试它捕获基础过程的能力 - 通过某种典型的验证（如交叉验证等），您可以在数据子集上重复构建模型并检查维持部分的错误。有许多可能（并且完全有效！）的方法 - 一切都取决于你想要回答的确切问题。不幸的是，"什么是最好的模型"不是一个好问题。

相关内容

最新更新

热门标签：