决定在机器学习回归中为非线性数据选择哪个多项式

我不是ML专家，最近我开始逐一实现ML算法。在成功实现逻辑回归后，我一直在思考如何在给定数据集的情况下选择多项式模型？我们根据输入特征有不同的多项式组合(比如m样本数据集的n特征(，但有办法选择最佳拟合多项式吗？我脑子里有两个想法，我不确定它们是否正确。如果有科学家使用的任何特定算法或过程，请注意我。谢谢。

是不是我们运行不同的多项式，看看哪个多项式的成本最低？(我觉得这将是一个漫长而痛苦的过程(
绘制数据并可视化，看看什么多项式假设最适合(同样，对于多维数据，可视化绘制太难了(

正如您所说，绘图在高维空间中不起作用。

你必须设置一个训练测试分割(或者交叉验证(，并寻找哪些功能可以为你提供测试数据的最佳预测。重要的是，测试数据保持分离以避免过拟合，即更复杂的函数总是能够更好地近似训练数据，但这并不意味着它们实际上可以泛化。

但通常情况下，您不需要显式地使用多项式特征，而是会在内核回归中使用不同类型的内核。在您的情况下，这将是一个多项式内核

另一种选择是使用鼓励所用变量稀疏性的方法。LASSO回归会导致对最小二乘损失的惩罚，这会鼓励不需要为零的特征参数。所以你可以把所有看起来有意义的组合都包括在内，最后看看套索，看看哪些参数是非零的。

相关内容

最新更新

热门标签：