SAS Proc GlmSelect - 如何使用交叉验证获取参数估计值



我一直在使用Proc GlmSelect和交叉验证功能,因为我的样本量相当小。

我根据最低的CVPRESS(预测的误差总和(选择模型。输出为所有变量生成"最终"参数估计值,以及为每个交叉验证和变量生成参数估计值。

但是,"最终"参数估计值不等同于平均值,也不等同于加权平均值,其中我根据测试集或验证集的大小进行加权。

我已经浏览了很多 SAS 说明,但我无法找到任何关于最终参数估计是如何从不同的交叉验证中得出的解释。

非常感谢一个答案或能为我指明正确方向的东西。

溴,

我认为,您的问题实际上指向交叉验证的本质而不是PROC GLMSELECT。"最终"估计值不是交叉验证期间拟合的模型估计值的组合 - 它们之间没有这种关系。

这就是为什么:在CV期间,您将单独的模型拟合到数据的各个折叠上(即每个模型拟合在不同的数据子集上(,并且估计值是该数据的最佳"解决方案"(详细信息在此处(。"最终拟合"是根据我假设的整个样本估计的。训练数据的差异确实会导致估计值的差异,但你不能指望"最终"估计值可以从简历拟合中得出;只需考虑拟合是通过非线性且通常复杂的函数执行的。

我的建议是:使用CV拟合来查看系数的分布;将最终的系数与它们进行比较;并检查每个CV模型的性能。这将帮助您评估模型及其选择。

最新更新