scikit中的auc_score学习0.14



我正在scikit learn中训练一个RandomForestClassifier关于二进制分类问题。我想最大限度地提高我对该模型的auc评分。我知道这在0.13稳定版本中是不可能的,但在0.14出血边缘版本中是可能的。

我试过了,但结果似乎更糟:

ic = RandomForestClassifier(n_estimators=100, compute_importances=True, criterion='entropy', score_func = auc_score);

这是作为模型的参数工作还是仅在gridsearchCV中工作?

如果我在gridsearchCV中使用它,它会使模型更好地适应auc_score的数据吗?我还想尝试最大化recall_score

我很惊讶上面没有出现错误。在GridSearchCV中,只能将AUC用于模型选择。如果您在那里使用它(scoring='roc_auc'iirc),这意味着将选择具有最佳auc的模型。这并没有使各个模型在这一分数方面变得更好。不过,它仍然值得一试。

我发现了一篇期刊文章,该文章讨论了具有随机林的高度不平衡类。尽管它的目标是在Hadoop集群上运行RDF,但同样的技术似乎也能很好地解决较小的问题:

del Río,S.,López,V.,Benítez,J.M.,&埃雷拉F.(2014)。关于使用随机森林对不平衡大数据使用MapReduce。信息科学,285112-137。

http://sci2s.ugr.es/rf_big_imb/pdf/rio14_INS.pdf

相关内容

  • 没有找到相关文章

最新更新