基于scikit-learn的情感分析特征提取



哪种特征提取器(Countvectorizer, TfIdf)最适合tweet的情感分析?谁能解释一下每个分类器之间的区别,哪个与不同的分类器最相关。

我计划使用3种不同的分类器-朴素贝叶斯,SVM和MaxEnt

您可以尝试使用SelectKBest方法来选择前k个最具信息量的特征进行情感分析。这存在于Python的scikit-learn库中。http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html

可以导入为:

from sklearn.feature_selection import SelectKBest, chi2, f_classif

一旦你阅读了文档,你可以尝试使用'chi2'和'f-classif'分数进行特征提取。SelectKBest是选择特征的好方法,因为它选择与输出变量关联最密切的特征。你可以不断地改变k的值来实验,看看哪个k值能给你最好的结果。

最新更新