从 scikit 管道中提取选定的功能名称


# Load dataset
iris = datasets.load_iris()
X, y = iris.data, iris.target
rf_feature_imp = RandomForestClassifier(100)
feat_selection = SelectFromModel(rf_feature_imp, threshold=0.5)
clf = RandomForestClassifier(5000)
model = Pipeline([
          ('fs', feat_selection), 
          ('clf', clf), 
        ])
 params = {
    'fs__threshold': [0.5, 0.3, 0.7],
    'fs__estimator__max_features': ['auto', 'sqrt', 'log2'],
    'clf__max_features': ['auto', 'sqrt', 'log2'],
 }
 gs = GridSearchCV(model, params, ...)
 gs.fit(X,y)

上面的代码基于 确保 scikit 学习中随机森林分类中的操作顺序正确

由于我使用的是 SelectFromModel,因此我想打印所选特征的名称(在 SelectFromModel 管道中),但不确定如何提取它们。

SelectFromModel有一个get_support()方法,该方法返回所选要素的布尔掩码。所以你可以这样做(除了@David Maust描述的初步步骤):

feature_names = np.array(iris.feature_names)
selected_features = feature_names[fs.get_support()]

一种方法是对特征名称调用特征选择器的transform(),但必须以示例列表的形式呈现特征名称。

首先,您必须从GridSearchCV中找到的最佳估计器获取特征选择阶段。

fs = gs.best_estimator_.named_steps['fs']

从feature_names创建示例列表:

feature_names_example = [iris.feature_names]

使用功能选择器转换此示例。

selected_features = fs.transform(feature_names_example)
print selected_features[0] # Select the one example
# ['sepal length (cm)' 'petal length (cm)' 'petal width (cm)']

s=model.named_steps['fs'].fit(X,y)

X.列[s.get_support()]

相关内容

  • 没有找到相关文章

最新更新