这两个参数nfolds
和train_samples_per_iteration
之间有什么区别,其中一个参数对确定最佳超参数比另一个参数更重要吗?
此外,在训练模型之前,是否有必要扩展训练和测试集?将响应变量转换为factor
表单是否重要?
nfolds
是在您想要进行交叉验证时指定的。如果你没有进行交叉验证,而是进行训练/有效/测试数据分割,那么你可以忽略它。
train_samples_per_iteration
决定评分的频率。默认情况是让H2O决定,这通常是个好主意。只有当你觉得训练时间的很大一部分被浪费在过于频繁地给模型打分上,或者在另一个极端,它得分不够频繁(错过了提前停止的机会(时,才可以触摸它。
此外,在训练模型之前,是否有必要缩放训练集和测试集?
否,默认情况下H2O会执行此操作。
将响应变量转换为因子形式是否重要?
是。如果响应变量是一组类别中的一个,请确保H2O已将其识别为一个因素。如果它将其识别为一种数值类型,它将建立一个回归模型。
(它通常会自动做正确的事情,但如果你的类别是数字,例如"0"表示否,"1"表示是,它可能会错过你的意图。(