提高文本分类的准确性



我正在为文本分类任务寻找一个模型。我的样本数量大约是4500个句子,每个句子大约有50个单词。我想把我的文本分为三类,积极类、消极类和中性类。我使用了机器学习(SVM,RF,LR(,我得到了不超过75%的准确率(我也做了预处理部分(。我想在深度神经网络和reccurent方面做一点工作,但我不知道从哪里开始。为了达到最大的准确性,你有什么建议?我应该期望多大的准确性?(p.s我使用python(

4500句话,每句50个单词的长度对于深度架构来说是不够的。你可以试着弄清楚,但我认为这行不通
有了这么多数据,我建议你对你尝试过的算法(SVM、RF…(在参数调整和单词嵌入上下更多的功夫。你是如何在数字空间中表示数据的?用非最先进的方法进行良好的嵌入仍然可以显示出惊人的效果
关于准确性预期的问题,如果我没有看到数据,我就无法告诉你这些信息。但是,根据我自己的经验,一个三类文本分类问题,每个句子不太长,可以以80%到90%,甚至98%的准确率来解决。这在很大程度上取决于您的数据的本质

正面/负面/中性文本/评论分类是一项非常常见的任务,网络上有许多数据集。您可以使用其中的一些,并扩展您的训练数据集。或者尝试使用基于它们的预训练模型。

最新更新