为什么我的分类器在新数据(尚未将其视为数据集的数据)上不正常



我的数据集将COPD文档作为阳性数据(86(和疟疾(20( Diarreha(20( 象征性(20(作为负数据,因此我的数据集中的总文档为146,其中86为正,为负数为6。输入。我使用幼稚的贝叶斯算法进行训练和测试。准确= 89%,精度= 84%,召回= 100%。现在,我正在使用新文档来在数据集之外进行测试。其中20个文件为正(COPD(和20个文档为负(我们的数据集中不在我们的数据集中的疾病中(现在,它将几乎所有文档都预测为正面,或者我们可以说准确性随着很大的价值而降低。我的问题是我在这里做错了什么?为什么我的分类器在新文档中不正常?任何类型的帮助都将不胜感激。

您显然在训练集中过度拟合。您必须使用正则化来使您的模型也可以很好地概括在新数据上。

您可以选择L2 Norm或辍学技术来防止过度拟合。

最新更新