是否可以使用袋装树中的 OOB 样本计算 AUC?



我对袋装树中的 OOB 样本有几个问题。 1.Do 我们总是只计算 OOB 样本的误差?如果是,使用哪个错误指标进行评估(如rmse,错误分类错误)? 2.另外,我们在提升方面也有这个OOB概念吗?

是否可以使用袋装树中的 OOB 样本计算 AUC?

  • ROC 曲线是可视化二元分类器性能的最常用方法,而 AUC 是(可以说)用单个数字总结其性能的最佳方式。无论您是否使用袋装树都没关系。你可以在这里找到一个很好的解释

1.Do 我们总是只计算 OOB 样本的误差?

  • 不一定,在引导之前,您可以搁置验证集并进行交叉验证

如果是,使用哪个错误指标进行评估(如rmse,错误分类错误)?

  • 如果是回归问题,可以使用树的误差平方和(RSS)
  • 对于分类问题,可以使用误分类错误率。

2.另外,我们在提升方面也有这个OOB概念吗?

  • 让我们看看什么是 OOB ?套袋的关键是树木反复适合观察的自举子集。平均而言,每棵袋装树利用了大约三分之二的观测结果。其余三分之一未用于拟合给定袋装树的观测值称为袋外 (OOB) 观测值。参考:统计学习简介,第 8.2.1 节,袋外误差估计
  • 提升不涉及自举采样;相反,每棵树都适合原始数据集的修改版本。参考:统计学习导论,第 8.2.3 节
  • 因此,根据定义,OOB概念不适用于提升。
  • 但请注意,提升树算法的大多数实现都可以选择以某种方式设置 OOB。请参阅相应实现的文档以了解其版本。

最新更新