我是Adaboost的新手,但一直在阅读它,这似乎是我一直在研究的问题的完美解决方案。
我有一个数据集,其中类是"向上"one_answers"向下"的数据集。高斯天真的贝叶斯分类器将两个类别分类为〜55%的精度(弱精确)。我认为将Adaboost与高斯天真贝叶斯一起使用,因为我的基本估计器将使我获得更高的精度,但是当我这样做时,我的准确性下降到约45-50%。
。为什么?我发现Adaboost表现不佳的基本估计器非常不寻常。此外,将不胜感激的是,任何使Adaboost更好地工作的技巧将不胜感激。我尝试了许多不同的估计量,结果相似。
原因可能是集合方法的多样性困境,特别涉及adaboost算法。多样性是Adaboost算法的组件分类器之间的误差,我们更喜欢保持不相关。否则,组件分类器的性能将比单个组件分类器差。另一方面,如果我们使用弱的基本分类器,但要达到合理的精度,最终的合奏将达到更高的精度。
这在本文中得到了很好的解释。我们可以从中检索此解释:
adaboost的准确性和多样性困境
此图是一个散点图,其中每个点对应于组件分类器。一个点的X坐标值是相应组件分类器的多样性值,而y坐标值是相应组件分类器的精度值。从这个图中可以看出,如果组件分类器太准确,很难找到非常多样化的分类器,并且结合这些准确但非多样性分类器通常会导致非常有限的改进(Windeatt,2005)。另一方面,如果组件分类器太不准确,尽管我们可以找到多种多样的分类器组合结果可能比结合更准确和多样化的组件分类器的结果要差。这是因为,如果组合结果由太多不准确的组件分类器主导,那么大多数时候将是错误的,导致分类结果不佳
要直接回答您的问题,可能是,使用Guassian Naive Bayes作为基本估计器正在创建分类器,这些分类器彼此之间不同意(多样化错误),因此Adaboost概括了比单个高斯幼稚的更糟贝叶斯。