我使用Scikit
编写了一个垃圾邮件过滤器。这里我用MultinomialNB with alpha = 0.1
。有谁能用外行的话给我解释一下什么是alpha(平滑因子),我怎么选择它的值?
谢谢
查看维基百科页面http://en.wikipedia.org/wiki/Additive_smoothing。
基本上的想法是,你想要减少罕见的词的影响:例如,如果你有一个垃圾邮件与单词'multinomialNB'在它,没有非垃圾邮件与这个词,那么没有添加平滑,你的垃圾邮件过滤器将分类与这个关键字的每封电子邮件为垃圾邮件。