朴素贝叶斯分类器的平衡语料库

我正在使用分类器进行情绪分析NB。我发现一些信息(博客，教程等(训练语料库应该平衡：

33.3 %积极;
33.3% 中性
33.3 % 负面

我的问题是：

为什么corspus应该平衡？贝叶斯定理基于原因/案例的可预测性。因此，出于培训目的，例如在现实世界中，负面推文只有 10% 而不是 33.3%，这不重要吗？

你是对的，平衡数据对于许多判别模型很重要，但对NB来说并不重要。

然而，偏置 P(y( 估计器以获得更好的预测性能可能更有利(因为由于使用各种简化模型，分配给少数类的概率可能严重欠拟合(。对于NB，它不是关于平衡数据，而是从字面上修改估计的P(y(，以便在验证集上最大化精度。

在我看来，如果将使用分类器的真实世界数据的样本，则用于训练目的的最佳数据集。

这适用于所有分类器(但其中一些确实不适合不平衡的训练集，在这种情况下，您实际上无法选择偏斜分布(，但特别是对于概率分类器，如朴素贝叶斯。因此，最佳样本应反映自然类分布。

请注意，这不仅对类先验估计很重要。朴素贝叶斯将为每个特征计算预测给定特征类的可能性。如果您的贝叶斯分类器是专门为对文本进行分类而构建的，它将使用全局文档频率度量(给定单词在所有类别中在数据集中出现的次数(。如果训练集中每个类别的文档数量不能反映其自然分布，则通常在不常见类别中看到的术语的全局术语频率将被高估，而频繁类别的全局术语频率将被低估。因此，不仅先验类概率不正确，而且所有P(category=c|term=t)估计都是不正确的。

相关内容

最新更新

热门标签：