我正在一个平衡的数据集上训练一个朴素贝叶斯分类器,具有相同数量的正负示例。在测试时,我依次计算正类、负类和构成负类的子集中的示例的准确性。但是,对于负类的某些子集,我得到的准确度值低于 50%,即随机猜测。我想知道,我应该担心这些结果远低于50%吗?谢谢!
如果没有具体的细节,就不可能完全回答这个问题,所以这里是指导方针:
如果你有一个具有相同数量的类的数据集,那么随机猜测将给你平均 50% 的准确率。
需要明确的是,你确定你的模型在你的训练数据集上学到了一些东西吗?训练数据集准确率是否高于 50%?如果是,请继续阅读。
假设您的验证集足够大,可以排除统计波动,那么低于 50% 的准确度表明您的模型确实有问题。
例如,您的类是否在验证数据集中意外切换?因为请注意,如果您改用 1 - model.predict(x(,您的准确度将高于 50%。