朴素贝叶斯分类器的平衡语料库



我正在使用分类器进行情绪分析NB。我发现一些信息(博客,教程等(训练语料库应该平衡:

  • 33.3 %积极;
  • 33.3% 中性
  • 33.3 % 负面

我的问题是:

为什么corspus应该平衡?贝叶斯定理基于原因/案例的可预测性。因此,出于培训目的,例如在现实世界中,负面推文只有 10% 而不是 33.3%,这不重要吗?

你是对的,平衡数据对于许多判别模型很重要,但对NB来说并不重要。

然而,偏置 P(y( 估计器以获得更好的预测性能可能更有利(因为由于使用各种简化模型,分配给少数类的概率可能严重欠拟合(。对于NB,它不是关于平衡数据,而是从字面上修改估计的P(y(,以便在验证集上最大化精度。

在我看来,如果将使用分类器的真实世界数据的样本,则用于训练目的的最佳数据集。

这适用于所有分类器(但其中一些确实不适合不平衡的训练集,在这种情况下,您实际上无法选择偏斜分布(,但特别是对于概率分类器,如朴素贝叶斯。因此,最佳样本应反映自然类分布。

请注意,这不仅对类先验估计很重要。朴素贝叶斯将为每个特征计算预测给定特征类的可能性。如果您的贝叶斯分类器是专门为对文本进行分类而构建的,它将使用全局文档频率度量(给定单词在所有类别中在数据集出现的次数(。如果训练集中每个类别的文档数量不能反映其自然分布,则通常在不常见类别中看到的术语的全局术语频率将被高估,而频繁类别的全局术语频率将被低估。因此,不仅先验类概率不正确,而且所有P(category=c|term=t)估计都是不正确的。

最新更新