线性判别分析与幼稚的贝叶斯

LDA与幼稚贝叶斯的优点和缺点是什么机器学习分类的条款？

我知道一些差异之类的差异假设变量是独立的，而LDA则假设了高斯类条件密度模型，但是我不明白何时使用LDA以及何时根据情况使用NB？

这两种方法都非常简单，因此很难说哪一种方法会更好。只是尝试两者并计算测试准确性，通常会更快。但这是通常表明某些方法是否不太可能给出良好结果的特征列表。这一切都归结为数据。

幼稚的贝叶斯

幼稚贝叶斯分类器的第一个缺点是特征独立性假设。实际上，数据是多维的，不同的功能确实相关。因此，结果可能并非总是显着的。如果您肯定知道，这些功能是依赖的（例如，图像的像素），请不要指望天真的贝叶斯炫耀。

另一个问题是数据稀缺。对于特征的任何可能值，可能是通过常见方法估算的可能性。这可能会导致概率接近0或1，从而导致数值不稳定性和较差的结果。

连续功能出现了第三个问题。天真的贝叶斯分类器仅与分类变量一起工作，因此必须将连续的功能转换为离散，从而丢弃了很多信息。如果数据中有连续的变量，则是针对天真的贝叶斯的强烈信号。

如果类是不平衡，即各种类中对象的数量高度不同，则LDA无法正常工作。解决方案是获取更多数据，这取决于任务，这可能很容易或几乎不可能。

LDA的另一个缺点是它不适用于> non-linear 问题，例如。甜甜圈形点云的分离，但是在高维空间中，很难立即发现它。通常，您会在看到LDA不起作用后理解这一点，但是如果已知数据非常非线性，这是对LDA的强烈信号。

此外，LDA可以对过度拟合敏感，需要仔细验证/测试。