我使用H2O AutoML进行二进制分类,类是不平衡的。
我在h2o.automl()
函数中设置了balance_classes = TRUE
和max_after_balance_size = 100
来对少数类进行过采样。然而,准确度-召回率曲线(Precision-Recall curve, AUCPR)下的度量面积的leader模型不是很好,~ 0.10。
请问用H2O AutoML处理类不平衡问题有什么技巧(例如预处理步骤,h2o.automl()
中的参数设置)吗?
非常感谢您的指导!
我建议指定stopping_metric = "AUCPR"
来优化AUCPR和sort_metric = "AUCPR"
,以让AutoML知道领导者模型应该是具有最佳AUCPR的模型(否则它将默认使用AUC)。
如果你的数据足够小,你可以使用像python中的失衡-学习或R中的themis这样的库来做一些预处理,如SMOTE,删除Tomek链接等