由于我目前正在研究一个高度不平衡的多类分类问题,我正在考虑平衡随机森林(https://statistics.berkeley.edu/sites/default/files/tech-reports/666.pdf(。您是否有一些使用 H2O 实现平衡随机森林的经验?如果是这样,您能否详细说明以下问题:
甚至是否有可能更改在 H2O 中创建引导样本的默认过程以提出平衡的子样本(对于随机森林中的每次迭代,从少数类中抽取一个引导样本。 从多数类中随机抽取相同数量的案例,并替换(原始数据集的每棵树生长?
H2O 的随机森林不执行自举,而是以 63.2% 的速率采样(这是任何自举样本中唯一行的预期值(。
如果要获得平衡的样本,可以使用可以使用参数balance_classes与class_sampling_factors,或者weights_column