我正在使用scikit学习库中的随机森林处理python中的文本分类问题。我想尝试不同的特征选择方法,如本文所述的信息增益(IG)或双正态分离(BNS)。
似乎scikit中唯一可用的特征选择方法(使用CountVectorizer类)是基于文档频率的。其他库中有其他方法吗?
有一个功能选择模块,具有进行单变量选择或递归特征消除的工具:http://scikit-learn.org/dev/modules/feature_selection.htmlscikit学习中没有gane或BNS信息。文档频率不是一种功能选择方法。