对不同类别的多个类别进行错误分类



我鼓励下一个问题:我正试着给很多文本文档分类。

共20类:1类正常,19类异常。当我使用Naïve贝叶斯分类时,我有以下结果:分类对19个类工作得很好,但对于"正常"类,我得到了许多误分类错误:几乎所有"正常"类别的情况都被分类为其他(非正常)类别。

这是我的问题:

  • 如何选择"普通"类的训练集?(现在,我刚好合身以"正常"类别分类文本集,用1/20比例)。
  • 分类器可以这样指定:如果属于的概率某些类小于某个阈值,则分类器必须设置
    该样本的类别(如正常)?

很可能是每个类的实例数量不平衡导致了这个问题。您需要在最终的类估计上定义某种先验,以避免不平衡实例的问题,并且您需要通过交叉验证来微调该先验的外生参数。我猜Dirichlet先验是用于多项式NB的

我不确定是否有完整的图片,但看起来你实际上只有"正常"one_answers"异常"两个类,它们在体积上是不平衡的,因此是优先的。

为了回答你的第一个问题,在这种情况下,我会尝试对你的正常类进行过度采样(多次传递相同的"正常"实例来"伪造"更大的体积),看看它是否能提高你的性能。

我不明白你的第二个问题。

相关内容

  • 没有找到相关文章