找到重要的特征进行分类



我正在尝试使用逻辑回归模型对一些EEG数据进行分类(这似乎是我的数据的最佳分类)。我所拥有的数据来自多通道EEG设置,因此本质上我有一个63 x 116 x 50的矩阵(即通道x时间点x试验次数(有两种试验类型为50)),我将其重塑为一个长向量,每个试验一个。

我想做的是在分类之后,看看哪些特征在分类试验中最有用。我该如何做?是否有可能测试这些功能的重要性?例如,说分类主要是由n个特征驱动的,这些特征是x到z。所以我可以说,例如,频道10在时间点90-95对分类是显著的或重要的。

所以这是可能的还是我问错了问题?

任何评论或论文参考都非常感谢。

Scikit-learn包含了相当多的特征排序方法,其中包括:

  • 单变量特征选择(http://scikit-learn.org/stable/auto_examples/feature_selection/plot_feature_selection.html)
  • 递归特征消除(http://scikit-learn.org/stable/auto_examples/feature_selection/plot_rfe_digits.html)
  • 随机Logistic回归/稳定性选择(http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.RandomizedLogisticRegression.html)

(详见http://scikit-learn.org/stable/modules/feature_selection.html)

在这些方法中,我绝对建议给随机逻辑回归一个机会。根据我的经验,它始终优于其他方法,并且非常稳定。这方面的论文:http://arxiv.org/pdf/0809.2932v2.pdf

编辑:

我已经写了一系列关于不同特性选择方法及其优缺点的博文,这些博文可能有助于更详细地回答这个问题:

  • http://blog.datadive.net/selecting-good-features-part-i-univariate-selection/
  • http://blog.datadive.net/selecting-good-features-part-ii-linear-models-and-regularization/
  • http://blog.datadive.net/selecting-good-features-part-iii-random-forests/
  • http://blog.datadive.net/selecting-good-features-part-iv-stability-selection-rfe-and-everything-side-by-side/

相关内容

  • 没有找到相关文章

最新更新