如何使用H2O AutoML处理类不平衡



我使用H2O AutoML进行二进制分类,类是不平衡的。

我在h2o.automl()函数中设置了balance_classes = TRUEmax_after_balance_size = 100来对少数类进行过采样。然而,准确度-召回率曲线(Precision-Recall curve, AUCPR)下的度量面积的leader模型不是很好,~ 0.10。

请问用H2O AutoML处理类不平衡问题有什么技巧(例如预处理步骤,h2o.automl()中的参数设置)吗?

非常感谢您的指导!

我建议指定stopping_metric = "AUCPR"来优化AUCPR和sort_metric = "AUCPR",以让AutoML知道领导者模型应该是具有最佳AUCPR的模型(否则它将默认使用AUC)。

如果你的数据足够小,你可以使用像python中的失衡-学习或R中的themis这样的库来做一些预处理,如SMOTE,删除Tomek链接等

最新更新