小贝子编程

具有一棵树的随机森林的性能比单个决策树更差?

>我正在分析医院研究的医疗数据，如果我使用只有一棵树的随机森林，那么交叉验证分数非常糟糕(表明过度拟合(，而如果我使用决策树，分数值实际上是安静的好。两个分类器具有相同的深度参数。那么如何解释这种行为呢？

决策树的构造过程通常包括修剪，这是为了减少深度和避免过度拟合而后验的部分。随机森林不使用这种方法，因为它实际上通过平均过度拟合决策树来利用它们的高方差。

此外，决策树将通过在完整数据集上进行训练来构建，而"随机森林"树将建立在训练数据集的引导程序上，这可能会转化为较差的性能，因为它将偏向于在抽样中多次包含的记录。同样，随机森林通过对多棵树进行平均来利用这一点，但这是一个缺点。

总而言之，性能的差异并不奇怪。

相关内容