伯努利和范畴朴素贝叶斯在scikit学习



sklearn.naive_bayes.CategoricalNBsklearn.naive_bayes.BernoulliNB相同,但列中有一个热编码吗?

从文档中无法完全猜测,CategoricalNB有一个额外的参数alpha,我不明白它的用途。

分类分布是伯努利分布,推广到两个以上的类别。换句话说,伯努利分布是范畴分布的一个特例,正好有两个范畴。

在伯努利模型中,假设每个特征正好有两个类别,通常表示为1和0或True和False。在分类模型中,假设每个特征具有至少2个类别,并且每个特征可能具有不同的类别总数。

一个热编码与任何一个模型都无关。它是一种在数字矩阵中对分类变量进行编码的技术。它与用于对分类变量建模的实际分布无关,尽管使用分类分布对分类变量进行建模是很自然的。

";α";参数称为拉普拉斯平滑参数。我不会在这里详细介绍它,因为它更适合CrossValidated,例如。https://stats.stackexchange.com/q/192233/36229.从计算的角度来看,它的存在是为了防止";中毒;具有0的计算,其在整个模型中以乘法方式传播。当数据集中不存在类标签和要素类别的某种组合时,就会出现这种实际问题。将其保留为默认值1是可以的。

最新更新