我可以对枚举数据使用朴素贝叶斯分类器吗?

我正在学习使用机器学习技术进行垃圾邮件检测，我在Stack上找到的一篇文章建议我从朴素贝叶斯分类器开始。

我的问题是：如果我正在测量的属性是谨慎的，而不是连续的，应该如何合并？在维基百科的这个例子中，他们正在训练一个分类器，以根据身高、体重和脚的大小来检测男性与女性。如果有第四个类别，"最喜欢的运动"怎么办。在我的假设样本中，假设你有"足球、足球、游泳、滑冰"。这些值是离散/枚举的，而不是连续的。你还能使用朴素贝叶斯分类器吗？我可以将这些值映射到整数（足球 = 1，游泳 = 2），但是身高和体重（5 英尺与 10 英尺非常不同）的差异中有一个隐含的含义，其中枚举之间的差异中没有这种隐含的含义（足球 - 游泳 = -1，那又怎样？

基本上，如果我的值是身高、体重、脚大小和最喜欢的运动，我还能使用朴素贝叶斯分类器吗？

是的，在贝叶斯分类中，你只需要确定其支持的类特定分布，你可以从数据中轻松做到这一点。现在，您可以计算每个类的后验分布，然后进行地图估计。实际上，对于文档，给定文档类为垃圾邮件或非垃圾邮件的字典的每个单词定义分发。有关详细信息，请参阅 Andrew Ng 关于机器学习入门的注释

相关内容

最新更新

热门标签：