我有一组trainFeatures
和一组带有正面、中性和负面标签的testFeatures
:
trainFeats = negFeats + posFeats + neutralFeats
testFeats = negFeats + posFeats + neutralFeats
例如,trainFeats
中的一个条目是
(['blue', 'yellow', 'green'], 'POSITIVE')
测试功能列表也是如此,因此我为每个集合指定标签。我的问题是如何使用随机森林分类器和 SVM 的 scikit 实现来获得该分类器的准确性,以及每个类的精度和召回率分数?问题是我目前正在使用单词作为特征,而从我阅读的内容来看,这些分类器需要数字。有没有办法在不改变功能的情况下实现我的目的?非常感谢!
你可以看看这个scikit-learn教程,特别是关于如何创建和使用分类器的学习和预测部分。该示例使用 SVM,但是使用 RandomForestClassifier 很简单,因为所有分类器都实现了 fit
和 predict
方法。
使用文本功能时,可以使用 CountVectorizer 或 DictVectorizer。看看特征提取,特别是第4.1.3节。
您可以在此处找到对文本文档进行分类的示例。
然后,您可以使用分类报告获取分类器的精度和召回率。