我有一个数据集,包含超过100k行和约1k列,其中包括binary classification
预测问题的目标列。我在python
中使用H2O
GBM(最新3.30xx(,具有5倍交叉验证和80-20列车测试拆分。我注意到H2O会自动将其分层,这很好。我遇到的问题是,我把一个产品的整个数据集和其中的一些子产品作为一个单独的列或组。这些子产品中的每一个都有5k到10k行的不错尺寸,因此我认为最好在每个子产品上检查单独的型号。我正在寻找是否可以指定该子产品组用于H2O模型训练中的交叉验证。目前,我在进行列车测试拆分时正在循环这些子产品,因为根据我迄今为止阅读的文档,我不清楚如何进行其他操作。我可以在H2O中使用任何选项直接将该子产品列用于交叉验证吗?这样一来,我就必须减少对脚本中所有模型输出的控制
我希望问题很清楚。如果没有,请告诉我。非常感谢。
fold_column
选项有效,文档中有一些简短的示例:http://docs.h2o.ai/h2o/latest-stable/h2o-py/docs/modeling.html#h2o.grid.H2OGridSearch