我想知道我是否可以在问题上得到一些帮助。
我正在为我的一个前实验室创建一个工具,该工具使用来自基于物理的机器(大量噪声)的数据,结果为简单的 x、y 坐标。我想确定数据集的局部最大值,但是,由于集合中有一堆噪声,因此您不能只检查点之间的斜率来确定峰值。
为了解决这个问题,我正在考虑使用多项式回归来"平滑"数据集,然后从结果模型中确定局部最大值。
我已经浏览了这个链接但是,http://scikit-learn.org/stable/auto_examples/linear_model/plot_polynomial_interpolation.html,它只告诉您如何创建紧密匹配的模型。它不会告诉您是否有一个集成的指标来衡量哪个是最佳模型。 我应该通过卡方来做到这一点吗?或者是否有其他指标效果更好或集成到scikit-learn套件中?
如何在多项式特征之上构建岭回归。因此,这不是一个"紧密拟合",因为您可以通过正则化(alpha 参数)来控制它 - 在参数之上。现在,"最佳模型"是什么意思 - 最佳回归有无限多个可能的标准,每个标准都通过不同的标准进行测试。你需要回答自己——你感兴趣的措施是什么。应该是光滑度和紧密健身之间的某种"黄金比例"吗?或者,也许您想要一个最多一些平滑度的模型,以最小化一些误差度量(到点的平均平方距离?另一种方法是测试它捕获基础过程的能力 - 通过某种典型的验证(如交叉验证等),您可以在数据子集上重复构建模型并检查维持部分的错误。有许多可能(并且完全有效!)的方法 - 一切都取决于你想要回答的确切问题。不幸的是,"什么是最好的模型"不是一个好问题。