为贝叶斯分类器训练数据大小

我正在使用apachemahout在客户支持领域执行情绪分析。由于我无法获得合适的训练数据集，所以我自己制作了训练数据集。现在，我有100封支持积极情绪的邮件和100封消极情绪的邮件。

但问题是，我无法做到准确无误。它停留在55%左右，这很可悲。大约70%及左右的准确度将是令人满意的。还要注意，我使用的是apachemahout的一个互补的naive bayes分类器。

确切地说，是数据集的大小越小，准确性就越低吗？如果没有，我应该在哪里调整？

为了将来研究这个问题的人的利益，我将分享我将分类器的准确度从50%调整到78%左右的方法

这将大大提高你的准确性。

相关内容