将SVM分类器应用于看不见的新数据时,我遇到了错误消息.用户(R)



感谢您的关注和帮助。

我用r软件构建了一个包含30,000行训练数据集的Kernel SVM分类器。

我使用了大约2000个单词的特征来训练分类器。

但是,当我试图将分类器应用于新的文本数据集时,问题发生了。

因为新的文本文档术语矩阵不包含分类器(列)中所有的2000字特征。

当然,我可以用少量的单词特征构建一个分类器。然后,它处理新的文本数据,但性能不是那么好。

你如何解决这个问题?

那么,如何解决新文本数据集不具备SVM分类器中所有单词特征的问题呢?

我问了一个问题,并为其他用户自己回答。

我可能会找到解决办法。

问题在于训练集的DTM中的列(单词特征)和未见过的数据集是不同的。

因此,在为未见过的数据集制作DTM时,使用火车集的DTM中的单词特征作为字典。

例如,

features <- trainset_dtm$dimnames$Terms

unseen_dtm <- DocumentTermMatrix(unseen_cropus, control = list(dictionary=features))

最后,两个dtm(train/unseen)中的列是相同的。因此,SVM在unseen_dtm上工作。

相关内容

  • 没有找到相关文章

最新更新