使用Scikit Learn Learn SVM准备文本分类的数据



我正在尝试从scikit应用SVM,学习对收集的推文进行分类。因此,将有两个类别,命名为A和B。目前,我将所有Tweets分类为两个文本文件" A.TXT"one_answers" B.TXT"。但是,我不确定Scikit学习SVM要求的数据输入哪种类型的数据。我有一个带有标签(a和b)的词典作为其钥匙和一个特征字典(umigrams)及其频率作为值。抱歉,我真的是机器学习的新手,不确定我该怎么做才能获得SVM的工作。我发现SVM使用numpy.ndarray作为其数据输入的类型。我需要根据自己的数据创建一个吗?应该这样吗?

Labels    features    frequency
  A        'book'        54
  B       'movies'       32

任何帮助都将不胜感激。

请查看文本功能提取的文档。

还可以查看文本分类示例。

这里还有一个教程:

http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html

特别是不要过多地专注于SVM模型(特别是sklearn.svm.SVC,对于内核模型而言更有趣,因此不是文本分类):简单的感知,LogisticRegress或Bernoulli Naive Bayes模型可能会尽可能更快地工作训练。

相关内容

  • 没有找到相关文章

最新更新