朴素贝叶斯算法

我发现这个非常有用的视频讨论了朴素贝叶斯分类。我注意到他计算的是文档是正数的概率，而不是一个词是正数的概率。这是对的吗？评论中指出了这一点，但到目前为止，作者没有回应。

https://www.youtube.com/watch?v=EGKeC2S44Rs

编辑：我刚刚发现这份文件讨论了相同的方法。

http://nlp.stanford.edu/IR-book/html/htmledition/naive-bayes-text-classification-1.html

我的新问题是，如果训练数据是 50/50 怎么办？是否有理想的使用比例？

目的是将整个文档分类为正或负（两个类）。单词是否存在 - 以及哪些单词具体影响该计算 - 但它们不是计算的目标。

相关内容