我正在构建一个随机森林分类模型,响应变量分割为98%(False)-2%(True)。我使用Scikit-Learn的RandomForest分类器。
处理这种不平衡数据并避免过采样的最佳方法是什么?
您可以使用参数class_weight
。
与{class_label: weight}
形式的类相关联的权重
您可以给您的小类更多的权重,并使用交叉验证找到最佳权重。
例如CCD_ 3。赋予标记为1的类更多权重。
在sklearn的随机林分类器的较新版本中,您可以简单地设置class_weight="balanced"。