谁能分享一个代码片段,展示如何使用scikit使用SVM进行文本挖掘?我已经看到了支持向量机在数值数据上的一个例子,但不太确定如何处理文本。我看了http://scikit-learn.org/stable/auto_examples/document_classification_20newsgroups.html但找不到SVM
在文本挖掘问题中,文本由数值表示。每个特征代表一个字,值是二进制数。它给出了一个矩阵,其中有很多0和一些15,这意味着对应的单词存在于文本中。单词可以根据频率或其他标准被赋予一定的权重。然后得到一些实数,而不是0和1。
将数据集转换为数值后,可以使用以下示例:http://scikit-learn.org/dev/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC