关于决策树和随机森林分类器(scikit)的疑问



我是决策树的新手,所以这些可能都是琐碎的问题。

决策树:

  1. 根据scikit文档(http://scikit-learn.org/stable/modules/tree.html),"predict_proba"函数返回每个类的概率,这是一片叶子中同一类的训练样本的分数。这到底意味着什么

随机森林分类器:

  1. 在随机森林分类器中,带替换(自举)的采样有什么优势。与粘贴相比,它提供了哪些额外的好处,即获取数据集的随机子集(http://scikit-learn.org/stable/modules/ensemble.html)
  2. scikit随机林分类器中有一个参数为"bootstrap_features"(特征是在有或没有替换的情况下绘制的)。用替换来绘制特征究竟意味着什么。根据我的理解,在种树的时候,你不能再使用同样的功能了。那么,替换一个功能究竟意味着什么呢
  3. 从随机森林分类器中学习变量重要性背后的直觉是什么

DT

根据scikit文档(http://scikit-learn.org/stable/modules/tree.html),"predict_proba"函数返回每个类的概率,这是一片叶子中同一类的训练样本的分数。这到底意味着什么。

如果你在没有限制的情况下种植你的树,这意味着什么,预测概率总是100%的输出。然而,如果你以某种方式限制了树的大小(例如通过max_depth),那么一些叶子实际上会以不同类别的样本结束,然后预测概率,如果分类在这样的叶子中完成,则返回每个类别与该叶子中每个类别样本成比例的概率。例如,你最终得到了一个叶,其中有来自类1的3个样本和来自类2的2个样本,那么如果你最终在这个叶中,你输出了[0.6 0.4](3/(3+2)=3/5=0.6=60%是你应该分配类1的概率,而类2的输出是2/(3+2)=2/5=0.4=40%。

RF 1

在随机森林分类器中,带替换(自举)的采样有什么优势。与粘贴相比,它提供了哪些额外的好处,即获取数据集的随机子集(http://scikit-learn.org/stable/modules/ensemble.html)

它使您的训练集与原始训练集的大小相等,因此您可以或多或少地使用与单个树相同的超参数范围。此外,这使训练集更加多样化(因为你对一些多次绘制的样本进行了人为的"增强")。它还具有更好的统计特性,因此可以更好地估计估计器的特性(例如其泛化能力)

RF 2

scikit随机林分类器中有一个参数为"bootstrap_features"(特征是在有或没有替换的情况下绘制的)。用替换来绘制特征究竟意味着什么。根据我的理解,在种树的时候,你不能再使用同样的功能了。那么,替换一个功能究竟意味着什么呢。

不,没有

类sklearn.集成.随机森林分类器(n_估计器=10,criteria='gini',max_depth=无,min_samples_split=2,min_samples_leaf=1,min_weight_fraction_leaf=0.0,max_features="自动",max_leaf_nodes=None,bootstrap=True,oob_score=False,n_jobs=1,random_state=无,verbose=0,warm_start=假,class_weight=无

也许你是说普通的Bagging?然后您可以多次使用每个功能。

RF 3

从随机森林分类器中学习变量重要性背后的直觉是什么。

这只是衡量树中每个特征用于决策的样本数量的指标,因此,如果从数据集中删除该特征,分数越低,损失就越少。您可以通过各种方式使用它,包括功能选择、数据分析反馈等。

用作树中决策节点的特征的相对秩(即深度)可用于评估该特征相对于目标变量的可预测性的相对重要性。在树的顶部使用的特征有助于输入样本的较大部分的最终预测决策。因此,它们所贡献的样本的预期分数可以用作特征的相对重要性的估计。

相关内容

  • 没有找到相关文章

最新更新