为贝叶斯分类器训练数据大小



我正在使用apachemahout在客户支持领域执行情绪分析。由于我无法获得合适的训练数据集,所以我自己制作了训练数据集。现在,我有100封支持积极情绪的邮件和100封消极情绪的邮件。

但问题是,我无法做到准确无误。它停留在55%左右,这很可悲。大约70%及左右的准确度将是令人满意的。还要注意,我使用的是apachemahout的一个互补的naive bayes分类器。

确切地说,是数据集的大小越小,准确性就越低吗?如果没有,我应该在哪里调整?

为了将来研究这个问题的人的利益,我将分享我将分类器的准确度从50%调整到78%左右的方法

  • 对训练和输入数据执行阻塞
  • 对训练和输入数据执行停止字删除
  • 将训练和输入数据转换为小写(或大写)
  • 在每一类训练数据中具有几乎相等数量的样本
  • 根据您的域微调ngram级别

这将大大提高你的准确性。

最新更新