随机森林-randomForest:是否有可能计算个案置信区间



R软件包randomForest报告林中每个的均方误差。然而,我需要对数据中的每个案例的置信度进行衡量。由于randomForest通过对单个树的预测进行平均来计算个案预测,我想也应该可以计算个案标准误差,从而计算置信区间。这可以使用输出randomForest对象来完成吗(如果是:如何?)或者我必须深入研究源代码吗?

无需深入研究源代码。您只需要阅读文档即可。?predict.randomForest声明其一个自变量称为predict.all:

predict.all是否应保留所有树的预测?

因此,将其设置为TRUE将为每种情况、每棵树保留一个预测,然后您可以使用它来计算每种情况的标准误差。

我最近了解到Stefan Wager、Trevor Hastie和Brad Efron的这篇论文,他们更严格地研究了随机森林(和其他袋装预测因子)产生的预测的标准误差概念。

最新更新