sklearn随机森林以查找所选特征的分数



我正在努力理解每个所选功能获得的相关分数。

到目前为止,我已经尝试过了:

classifier = 
SelectFromModel(RandomForestClassifier(n_estimators = 100))
m = classifier.fit(train.drop(columns='indicator'), train.rg_risk)
X_train = train.drop(columns='indicator')
selected_feat=X_train.columns[(classifier.get_support())]
len(selected_feat)
SelectFromModel是一个嵌入式方法:它使用具有内置功能选择方法的算法。

在您的情况下,可以使用RandomForest根据要素重要性选择要素。它使用每个决策树中的节点杂质来计算特征重要性。

通过threshold=None,默认计算最终特征重要性阈值作为所有决策树特征重要性的平均值。其他可能性是中位数(与均值相同,但使用中位数(或调整中位数/均值的比例因子("1.25*mean""1.25*median"(。

源sklearn

最新更新