随机森林的分层采样-Python



我正在构建一个随机森林分类模型,响应变量分割为98%(False)-2%(True)。我使用Scikit-Learn的RandomForest分类器。

处理这种不平衡数据并避免过采样的最佳方法是什么?

您可以使用参数class_weight

{class_label: weight} 形式的类相关联的权重

您可以给您的小类更多的权重,并使用交叉验证找到最佳权重。

例如CCD_ 3。赋予标记为1的类更多权重。

在sklearn的随机林分类器的较新版本中,您可以简单地设置class_weight="balanced"。

相关内容

  • 没有找到相关文章

最新更新