我在scikit-learn中使用随机森林。我使用feature_importances_来查看每个特征在预测目标中的重要性。但我不明白这个分数是什么。在google上搜索feature_importances_会说这是减少杂质的平均值。但我还是很困惑,这和mean reduction gigi杂质是否相同。如果是这样,那么树木和随机森林是如何计算的呢?除了数学之外,我想真正理解它是什么意思。
feature_importances_函数将告诉您每个特征对预测(信息增益)的贡献程度
随机森林根据基尼系数、信息增益、卡方或熵对自变量或特征进行分类。那些对信息增益贡献最大的特征会得到高分。