解释sklearn-ensamble方法中的feature_importances_

预测后，feature_importances_（特别是GradientBoostingClassifier，但可能存在于其他方法中）具有特征重要性。根据文件，越高，功能就越重要。

你知道返回的数字是什么意思吗？

我得到的值范围从0.02到10^-6或0。

如果一个特征的重要性为0.02，那么它的重要性占所有特征的2%，但这与预测准确性或预测相关性有何关系？我能解释这个数字并理解删除这样的特征将如何影响预测吗？

sklearn合奏和树模块的主要作者Gilles Louppe在这里对这个问题做出了很好的回答。

有不同的方法可以量化决策树中的节点在多大程度上有助于将传入数据集划分为具有输出类的块，这些输出类在累积上比拆分前更具预测性。一个这样的度量是gini重要性，它是在节点处拆分的数据集提供的输出类杂质减少的度量。该度量通过使用该特征实际分割数据集的行数进行加权，并在集合中的所有决策树上进行平均，从而确定sklearn中的feature_importance_。

相关内容

最新更新

热门标签：