如何计算两个决策树之间的距离

在精准医学中，决策树已被用于将患者分为不同的亚组，这些亚组可能对治疗有相似的反应(相似的治疗效果(。在这种情况下，找到一个稳定的树状结构来决定哪个患者应该接受治疗或不应该接受治疗是至关重要的。

然而，正如我们所知，基于单个树的决策是不稳健的，因为单个树的结构是可变的。尽管使用集成算法(构建许多树并对其进行平均(可以提高预测精度，但决定应该选择哪棵树可能会变得不清楚。

因此，在诸如随机森林之类的集成算法中，我们希望计算一棵树与其他树相比的相似性/距离，并找出最可靠、最具代表性的树来进行决策。

因此，我们想问是否有一些可靠的理论和代码来支持这一点。

不同树之间的距离对您的解释是主观的。话虽如此，我认为您可以使用以下内容：

决策树和随机森林之间的一个主要区别是，RF每次创建树集合时都会获取一个子集的特征。分类决策是一个平均值，在大多数情况下，这会导致更好的决策。因此，我们考虑未来的RF。

因此，如果您的数据集具有n行，请在m < n处随机采样m数据点。采样100次，并对每个样本进行RF训练/测试。然后，您可以平均出准确度/F1分数，并查看性能。另一种方法是进行StratifiedKFold测试。

如果你绘制准确度分布，如果你看到高斯分布，你或多或少可以说你的预测是一致/可靠的。

相关内容