LDA与幼稚贝叶斯的优点和缺点是什么 机器学习分类的条款?
我知道一些差异之类的差异假设变量是独立的,而LDA则假设了高斯类条件密度模型,但是我不明白何时使用LDA以及何时根据情况使用NB?
这两种方法都非常简单,因此很难说哪一种方法会更好。只是尝试两者并计算测试准确性,通常会更快。但这是通常表明某些方法是否不太可能给出良好结果的特征列表。这一切都归结为数据。
幼稚的贝叶斯
幼稚贝叶斯分类器的第一个缺点是特征独立性假设。实际上,数据是多维的,不同的功能确实相关。因此,结果可能并非总是显着的。如果您肯定知道,这些功能是依赖的(例如,图像的像素),请不要指望天真的贝叶斯炫耀。
另一个问题是数据稀缺。对于特征的任何可能值,可能是通过常见方法估算的可能性。这可能会导致概率接近0或1,从而导致数值不稳定性和较差的结果。
连续功能出现了第三个问题。天真的贝叶斯分类器仅与分类变量一起工作,因此必须将连续的功能转换为离散,从而丢弃了很多信息。如果数据中有连续的变量,则是针对天真的贝叶斯的强烈信号。
线性判别分析
如果类是不平衡,即各种类中对象的数量高度不同,则LDA无法正常工作。解决方案是获取更多数据,这取决于任务,这可能很容易或几乎不可能。
LDA的另一个缺点是它不适用于> non-linear 问题,例如。甜甜圈形点云的分离,但是在高维空间中,很难立即发现它。通常,您会在看到LDA不起作用后理解这一点,但是如果已知数据非常非线性,这是对LDA的强烈信号。
此外,LDA可以对过度拟合敏感,需要仔细验证/测试。