使用朴素贝叶斯进行文本分类



我倾向于NLP,并注意到基于朴素贝叶斯的TextBlob分类(textblob是在NLTK之上构建的(https://textblob.readthedocs.io/en/dev/classifiers.html 训练数据是句子列表时工作正常,当训练数据是单个单词(每个单词和分配的分类(时根本不起作用。

为什么?

因为训练数据中没有单个单词。

通常,应该选择具有相同分布的训练和评估/测试数据。偏差或偏斜通常是有问题的。在极少数情况下,您可以训练模型做一件事,并使用它来做其他事情。

在您的情况下,模型可能会将权重分散到句子中的单词上。因此,当您选择一个单词时,您只能获得所代表权重的一小部分。

要使其正常工作,您应该在训练数据中添加单个单词示例。

最新更新