Scikit learn - 如何使用 SVM 和随机森林进行文本分类



我有一组trainFeatures和一组带有正面、中性和负面标签的testFeatures

trainFeats = negFeats + posFeats + neutralFeats
testFeats  = negFeats + posFeats + neutralFeats

例如,trainFeats中的一个条目是

(['blue', 'yellow', 'green'], 'POSITIVE') 

测试功能列表也是如此,因此我为每个集合指定标签。我的问题是如何使用随机森林分类器和 SVM 的 scikit 实现来获得该分类器的准确性,以及每个类的精度和召回率分数?问题是我目前正在使用单词作为特征,而从我阅读的内容来看,这些分类器需要数字。有没有办法在不改变功能的情况下实现我的目的?非常感谢!

你可以看看这个scikit-learn教程,特别是关于如何创建和使用分类器的学习和预测部分。该示例使用 SVM,但是使用 RandomForestClassifier 很简单,因为所有分类器都实现了 fitpredict 方法。

使用文本功能时,可以使用 CountVectorizer 或 DictVectorizer。看看特征提取,特别是第4.1.3节。

您可以在此处找到对文本文档进行分类的示例。

然后,您可以使用分类报告获取分类器的精度和召回率。

相关内容

  • 没有找到相关文章

最新更新