强制拆分随机林



在scikit中使用随机林。是否可以强制拆分某个二进制功能。我有一个数据集,其中一个特征是男性或女性。我发现他们之间的差异如此之大,以至于第一次分手应该是在性方面。我当然可以制作模型,但有一个模型很实用。

简而言之,没有

然而,你的问题表明你还没有完全理解随机森林是如何工作的。

我建议阅读https://citizennet.com/blog/2012/11/10/random-forests-ensembles-and-performance-metrics/

数据中的拆分是以最大化拆分之间差异的方式进行的。因此,如果您提到的特征确实具有预测性,则树应该在某个点上对该特征进行拆分(取决于其他特征的预测能力)。

此外,sklearn中的所有树模型都具有导出拆分的功能——因此,您可以拟合一棵树并检查发生了什么。

http://scikit-learn.org/stable/modules/generated/sklearn.tree.export_graphviz.html

如果你想了解更多,《统计学习要素》(可在作者网站上免费下载)的第9章将更深入地介绍这一理论。

在某些情况下,原帖子的建议实际上可能是个好主意。由于随机森林基于信息量最大的特征贪婪地进行分割,因此它可能会执行不足的模型,该模型首先对信息量较小的特征进行分割,但将数据分为两个集,这两个集的行为不同,从而证明不同的模型是合理的。

这是一个演示这一点的视频-它是希伯来语的,但如果你按照屏幕上的笔记本,你可以看到他们是如何显示的:https://www.youtube.com/watch?v=LAJW18ITymM

(太长了,读不下去了-一个简单的决策树的分类准确度为0.74,但当将第四个最重要的特征拆分为两个单独的树时,每个树的准确度为0.85)

相关内容

  • 没有找到相关文章