我正在尝试使用sklearn.svm.SVC来完成一些文本分类任务。我知道在使用 SVM 建模之前执行特征选择是一项有点可疑的工作,因为当使用全套特征时,性能通常会达到峰值。从学术角度来看,看看不同的特征选择方法如何对特征进行不同的排名,这仍然很有趣。
经过一番挖掘,我发现 sklearn 中可用的功能选择指标非常有限,即 Chi-2。我只是想知道是否已经在 sklearn(或其他地方)中实现了其他常用指标,例如 IG 和 BNS,我可以直接用作 sklearn.feature_selection 中的分数函数。选择KBest()?
InfoGain尚未实现,但我认为@larsmans希望在将来的某个时候将其包括在内。我不知道国行。
如果您愿意,请随时贡献它。以下是贡献指南:
http://scikit-learn.org/dev/developers/index.html