关于决策树和随机森林分类器(scikit)的疑问

我是决策树的新手，所以这些可能都是琐碎的问题。

决策树：

根据scikit文档(http://scikit-learn.org/stable/modules/tree.html)，"predict_proba"函数返回每个类的概率，这是一片叶子中同一类的训练样本的分数。这到底意味着什么

随机森林分类器：

在随机森林分类器中，带替换（自举）的采样有什么优势。与粘贴相比，它提供了哪些额外的好处，即获取数据集的随机子集(http://scikit-learn.org/stable/modules/ensemble.html)
scikit随机林分类器中有一个参数为"bootstrap_features"（特征是在有或没有替换的情况下绘制的）。用替换来绘制特征究竟意味着什么。根据我的理解，在种树的时候，你不能再使用同样的功能了。那么，替换一个功能究竟意味着什么呢
从随机森林分类器中学习变量重要性背后的直觉是什么

DT

根据scikit文档(http://scikit-learn.org/stable/modules/tree.html)，"predict_proba"函数返回每个类的概率，这是一片叶子中同一类的训练样本的分数。这到底意味着什么。

如果你在没有限制的情况下种植你的树，这意味着什么，预测概率总是100%的输出。然而，如果你以某种方式限制了树的大小（例如通过max_depth），那么一些叶子实际上会以不同类别的样本结束，然后预测概率，如果分类在这样的叶子中完成，则返回每个类别与该叶子中每个类别样本成比例的概率。例如，你最终得到了一个叶，其中有来自类1的3个样本和来自类2的2个样本，那么如果你最终在这个叶中，你输出了[0.6 0.4]（3/（3+2）=3/5=0.6=60%是你应该分配类1的概率，而类2的输出是2/（3+2）=2/5=0.4=40%。

RF 1

在随机森林分类器中，带替换（自举）的采样有什么优势。与粘贴相比，它提供了哪些额外的好处，即获取数据集的随机子集(http://scikit-learn.org/stable/modules/ensemble.html)

它使您的训练集与原始训练集的大小相等，因此您可以或多或少地使用与单个树相同的超参数范围。此外，这使训练集更加多样化（因为你对一些多次绘制的样本进行了人为的"增强"）。它还具有更好的统计特性，因此可以更好地估计估计器的特性（例如其泛化能力）

RF 2

scikit随机林分类器中有一个参数为"bootstrap_features"（特征是在有或没有替换的情况下绘制的）。用替换来绘制特征究竟意味着什么。根据我的理解，在种树的时候，你不能再使用同样的功能了。那么，替换一个功能究竟意味着什么呢。

不，没有

类sklearn.集成.随机森林分类器（n_估计器=10，criteria='gini'，max_depth=无，min_samples_split=2，min_samples_leaf=1，min_weight_fraction_leaf=0.0，max_features="自动"，max_leaf_nodes=None，bootstrap=True，oob_score=False，n_jobs=1，random_state=无，verbose=0，warm_start=假，class_weight=无

也许你是说普通的Bagging？然后您可以多次使用每个功能。

RF 3

从随机森林分类器中学习变量重要性背后的直觉是什么。

这只是衡量树中每个特征用于决策的样本数量的指标，因此，如果从数据集中删除该特征，分数越低，损失就越少。您可以通过各种方式使用它，包括功能选择、数据分析反馈等。

用作树中决策节点的特征的相对秩（即深度）可用于评估该特征相对于目标变量的可预测性的相对重要性。在树的顶部使用的特征有助于输入样本的较大部分的最终预测决策。因此，它们所贡献的样本的预期分数可以用作特征的相对重要性的估计。

DT

RF 1

RF 2

RF 3

相关内容

最新更新

热门标签：