RFECV网格核心中的数字是否与所选特征相等



我正在寻求RFECV中与selector.grid_scores_相关的数字的一些清晰度。

我使用了以下内容:

from sklearn.feature_selection import RFECV
estimator_RFECV = ExtraTreesClassifier(random_state=0)
estimator_RFECV = RFECV(estimator_RFECV, min_features_to_select = 20, step=1, cv=5, scoring='accuracy', verbose=1, n_jobs=-1)
estimator_RFECV = estimator_RFECV.fit(X_train, y_train)

使用estimator_RFECV.ranking_,通过CV选择了27个特征,然而,当我查看estimator_RFECV.grid_scores_时,在27,这里的值(精度(不是最高的。我对grid_scores_的解释是否不正确,我不应该期望27具有最高的准确性?

  1. 这里,estimator_RFECV.ranking_会给你一个特征排名的数组,使得ranking_[i]对应于第i个特征的排名位置。选定的(即,估计的最佳(特征被分配等级1,等级2的特征将不如等级1重要,依此类推

所以estimator_RFECV.ranking_会给我们特征的排名,或者我们可以说特征的重要性。

  1. 但是,估计器_RFECV.grid_scores将根据评分指标、min_features_to_select和可用功能的最大数量为我们提供阵列。在上述情况下,它应该包含8个元素,每个元素代表具有顶部X特征的精度,其中X属于20到27

是的,特征数量较少的模型总是有可能具有更高的精度,因为我们可能认为一些特征是不相关的。

此外,官方文件中的RFECV文件链接可能会有所帮助。

最新更新