我可以对枚举数据使用朴素贝叶斯分类器吗?



我正在学习使用机器学习技术进行垃圾邮件检测,我在Stack上找到的一篇文章建议我从朴素贝叶斯分类器开始。

我的问题是:如果我正在测量的属性是谨慎的,而不是连续的,应该如何合并?在维基百科的这个例子中,他们正在训练一个分类器,以根据身高、体重和脚的大小来检测男性与女性。如果有第四个类别,"最喜欢的运动"怎么办。在我的假设样本中,假设你有"足球、足球、游泳、滑冰"。这些值是离散/枚举的,而不是连续的。你还能使用朴素贝叶斯分类器吗?我可以将这些值映射到整数(足球 = 1,游泳 = 2),但是身高和体重(5 英尺与 10 英尺非常不同)的差异中有一个隐含的含义,其中枚举之间的差异中没有这种隐含的含义(足球 - 游泳 = -1,那又怎样?

基本上,如果我的值是身高、体重、脚大小和最喜欢的运动,我还能使用朴素贝叶斯分类器吗?

是的,在贝叶斯分类中,你只需要确定其支持的类特定分布,你可以从数据中轻松做到这一点。现在,您可以计算每个类的后验分布,然后进行地图估计。实际上,对于文档,给定文档类为垃圾邮件或非垃圾邮件的字典的每个单词定义分发。有关详细信息,请参阅 Andrew Ng 关于机器学习入门的注释

最新更新