我不是ML专家,最近我开始逐一实现ML算法。在成功实现逻辑回归后,我一直在思考如何在给定数据集的情况下选择多项式模型?我们根据输入特征有不同的多项式组合(比如m样本数据集的n特征(,但有办法选择最佳拟合多项式吗?我脑子里有两个想法,我不确定它们是否正确。如果有科学家使用的任何特定算法或过程,请注意我。谢谢。
- 是不是我们运行不同的多项式,看看哪个多项式的成本最低?(我觉得这将是一个漫长而痛苦的过程(
- 绘制数据并可视化,看看什么多项式假设最适合(同样,对于多维数据,可视化绘制太难了(
正如您所说,绘图在高维空间中不起作用。
你必须设置一个训练测试分割(或者交叉验证(,并寻找哪些功能可以为你提供测试数据的最佳预测。重要的是,测试数据保持分离以避免过拟合,即更复杂的函数总是能够更好地近似训练数据,但这并不意味着它们实际上可以泛化。
但通常情况下,您不需要显式地使用多项式特征,而是会在内核回归中使用不同类型的内核。在您的情况下,这将是一个多项式内核
另一种选择是使用鼓励所用变量稀疏性的方法。LASSO回归会导致对最小二乘损失的惩罚,这会鼓励不需要为零的特征参数。所以你可以把所有看起来有意义的组合都包括在内,最后看看套索,看看哪些参数是非零的。