我正在尝试使用逻辑回归模型对一些EEG数据进行分类(这似乎是我的数据的最佳分类)。我所拥有的数据来自多通道EEG设置,因此本质上我有一个63 x 116 x 50的矩阵(即通道x时间点x试验次数(有两种试验类型为50)),我将其重塑为一个长向量,每个试验一个。
我想做的是在分类之后,看看哪些特征在分类试验中最有用。我该如何做?是否有可能测试这些功能的重要性?例如,说分类主要是由n个特征驱动的,这些特征是x到z。所以我可以说,例如,频道10在时间点90-95对分类是显著的或重要的。
所以这是可能的还是我问错了问题?
任何评论或论文参考都非常感谢。
Scikit-learn包含了相当多的特征排序方法,其中包括:
- 单变量特征选择(http://scikit-learn.org/stable/auto_examples/feature_selection/plot_feature_selection.html)
- 递归特征消除(http://scikit-learn.org/stable/auto_examples/feature_selection/plot_rfe_digits.html)
- 随机Logistic回归/稳定性选择(http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.RandomizedLogisticRegression.html)
(详见http://scikit-learn.org/stable/modules/feature_selection.html)
在这些方法中,我绝对建议给随机逻辑回归一个机会。根据我的经验,它始终优于其他方法,并且非常稳定。这方面的论文:http://arxiv.org/pdf/0809.2932v2.pdf
编辑:我已经写了一系列关于不同特性选择方法及其优缺点的博文,这些博文可能有助于更详细地回答这个问题:
- http://blog.datadive.net/selecting-good-features-part-i-univariate-selection/
- http://blog.datadive.net/selecting-good-features-part-ii-linear-models-and-regularization/
- http://blog.datadive.net/selecting-good-features-part-iii-random-forests/
- http://blog.datadive.net/selecting-good-features-part-iv-stability-selection-rfe-and-everything-side-by-side/