找到重要的特征进行分类

我正在尝试使用逻辑回归模型对一些EEG数据进行分类(这似乎是我的数据的最佳分类)。我所拥有的数据来自多通道EEG设置，因此本质上我有一个63 x 116 x 50的矩阵(即通道x时间点x试验次数(有两种试验类型为50))，我将其重塑为一个长向量，每个试验一个。

我想做的是在分类之后，看看哪些特征在分类试验中最有用。我该如何做?是否有可能测试这些功能的重要性?例如，说分类主要是由n个特征驱动的，这些特征是x到z。所以我可以说，例如，频道10在时间点90-95对分类是显著的或重要的。

所以这是可能的还是我问错了问题?

任何评论或论文参考都非常感谢。

Scikit-learn包含了相当多的特征排序方法，其中包括:

单变量特征选择(http://scikit-learn.org/stable/auto_examples/feature_selection/plot_feature_selection.html)
递归特征消除(http://scikit-learn.org/stable/auto_examples/feature_selection/plot_rfe_digits.html)
随机Logistic回归/稳定性选择(http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.RandomizedLogisticRegression.html)

(详见http://scikit-learn.org/stable/modules/feature_selection.html)

在这些方法中，我绝对建议给随机逻辑回归一个机会。根据我的经验，它始终优于其他方法，并且非常稳定。这方面的论文:http://arxiv.org/pdf/0809.2932v2.pdf

编辑:

我已经写了一系列关于不同特性选择方法及其优缺点的博文，这些博文可能有助于更详细地回答这个问题:

http://blog.datadive.net/selecting-good-features-part-i-univariate-selection/
http://blog.datadive.net/selecting-good-features-part-ii-linear-models-and-regularization/
http://blog.datadive.net/selecting-good-features-part-iii-random-forests/
http://blog.datadive.net/selecting-good-features-part-iv-stability-selection-rfe-and-everything-side-by-side/

相关内容