sklearn中范畴数据的递归特征消除



我有一个包含8个参数(4个连续4个类别)的数据集,我正试图根据Scikit中的RFEC类消除特征。

这是我使用的公式:

svc = SVC(kernel="linear")
rfecv = RFECV(estimator=svc, step=1, cv=StratifiedKFold(y, 2),
          scoring='accuracy')
rfecv.fit(X, y)

由于我也有分类数据,我使用dmatrics(Patsy)将其更改为虚拟变量。

我想在特征选择后对数据尝试不同的分类模型,以与SVC一起改进模型。

我在转换数据后运行了RFE,我认为我做错了
我们是在转换分类数据之前还是之后运行RFECV?

我在任何文件中都找不到任何明确的说明。

这取决于您是选择类别变量的给定值还是选择整个变量。您当前正在选择分类变量的单个设置(也称为级别)。要选择整个变量,您可能需要做一些技巧,基于SVC定义自己的估计器。您可以执行make_pipeline(OneHotEncoder(categorical_features), SVC()),但需要将管道的coef_设置为反映输入形状的值。

相关内容

  • 没有找到相关文章

最新更新