在GLM lambda搜索中使用交叉验证时,需要注意什么



关于h2o.glm lambda搜索似乎没有迭代所有lambda,我读到这个问题是抱怨lambda太高;他们尝试设置early_stopping=F,希望能修复这个"错误"。

原来的行为不是一个特性,而不是一个bug吗?如果这是正确的,那么在使用GLM的交叉验证时,应该始终使用early_stopping=T,否则交叉验证的误差估计是无用的;你也有过度合身的风险。

(我的主要问题是,我对GLM和CV协同工作方式的理解是否正确;但在一起使用lambda_search和交叉验证时,如果还有其他需要注意的地方,我会感兴趣。(

具有lambda搜索和交叉验证的H2O的glm应始终基于交叉验证选择最佳lambda,并在返回的(主(模型中使用。提前停止选项对所选lambda不应有任何影响。它的目的是跳过lambdas>best模型的计算,因为主模型不需要它们(我们仍然计算lambdas<best的模型,因为这允许使用热启动并充分利用强规则(。

我认为early_stopping设置为false的行为应该为所有Lambda计算模型,以防用户想要查看它们/进行自定义模型选择。

最新更新