具有一棵树的随机森林的性能比单个决策树更差?



>我正在分析医院研究的医疗数据,如果我使用只有一棵树的随机森林,那么交叉验证分数非常糟糕(表明过度拟合(,而如果我使用决策树,分数值实际上是安静的好。两个分类器具有相同的深度参数。那么如何解释这种行为呢?

决策树的构造过程通常包括修剪,这是为了减少深度和避免过度拟合而后验的部分。随机森林不使用这种方法,因为它实际上通过平均过度拟合决策树来利用它们的高方差。

此外,决策树将通过在完整数据集上进行训练来构建,而"随机森林"树将建立在训练数据集的引导程序上,这可能会转化为较差的性能,因为它将偏向于在抽样中多次包含的记录。同样,随机森林通过对多棵树进行平均来利用这一点,但这是一个缺点。

总而言之,性能的差异并不奇怪。

最新更新