我正试图从scikit学习包中找出哪种决策树方法更适合我执行分类任务的需要。
然而,我发现有两个决策树模型可用:
- 基于scikit.tree包中优化的CART算法的标准决策树分类器
- scikit.ensemble包的集成方法ExtraTreeClassifier
有人能具体说明使用这些模型的优点和缺点吗?
ExtraTreeClassifier
是DecisionTreeClassifier
的一个极其随机的版本,旨在作为ExtraTreesClassifier
系综的一部分在内部使用。
对诸如RandomForestClassifier
和ExtraTreesClassifier
之类的集合求平均是为了解决单个DecisionTreeClassifier
实例的方差问题(对于训练集中的小变化缺乏鲁棒性)。
如果你的主要目标是最大限度地提高预测精度,你几乎应该总是使用一个决策树集合,如ExtraTreesClassifier
(或者一个增强集合),而不是训练单个决策树。
查看原始的Extra Trees文件以了解更多详细信息。