我想用 3 个类(正面、中性和负面(进行情绪分析。我已经看到很多关于情绪分析的工作,有两类(正面和负面(,但对于 3 类来说,情况要少得多。如果我想在Scikit-learn中使用词袋方法和分类器,例如逻辑回归或SVM,这将如何工作?我的输出用 3 个类预测的步骤是什么?
我是否必须将每个类视为二元分类并执行某些操作来组合结果,或者 sklearn 是否能够为我进行一些处理,因此我不必指定这一点?
有三种可能的方法:
- 使用多类算法
- ,例如逻辑回归或决策树(它们本质上是多类的(或二进制算法(如 SVM(的一对一或一对一对休息包装器。
- 如果要利用中性文本"介于"正文本和负文本之间的事实,则可以使用有序分类模型,例如 mord 包中的有序逻辑回归。
- 如果你想利用类的排序,但又想留在scikit-learn内,我建议先将任何回归模型拟合到你的数据中(例如梯度嘘回归器(,然后在其预测之上使用逻辑回归。