我正在处理一项与书面文本相关的分类任务,我想知道执行某种"特征选择"程序以改进分类结果有多重要。
我使用了许多与主题相关的特征(约40个),但我不确定所有特征是否真的相关,以及在哪些组合中。我正在研究SVM(scikit)和LDAC(mlpy)。
如果a混合了相关和不相关的特征,我想我会得到糟糕的分类结果。在分类之前,我应该执行"功能选择程序"吗?
Scikit有一个基于树的RFE程序,能够对特征进行排序。用基于树的RFE对特征进行排序以选择最重要的特征并用SVM(非线性)或LDAC进行实际分类有意义吗?或者我应该使用相同的分类器来实现某种包装方法来对特征进行排序(尝试使用不同的特征组进行分类会非常耗时)?
试着看看它是否提高了通过交叉验证测量的分类分数。同样在尝试RFE之前,我会尝试CPU密集度较低的方案,如单变量chi2特征选择。
拥有40个功能还不错。一些机器学习受到不相关特征的阻碍,但许多东西对它们来说是相当稳健的(例如朴素贝叶斯、SVM、决策树)。除非你决定在中添加更多功能,否则你可能不需要进行功能选择
扔掉无用的功能不是一个坏主意,但除非你有特别的动机,否则不要浪费你自己的时间去尝试。