nGrams in apache mahout



我正在通过apache mahout运行朴素贝叶斯分类器算法。我们可以选择在训练和运行算法实例时设置克大小。

将n-Gram的大小从1更改为2,将大大改变结果分类。为什么会发生这种情况?n克大小是如何使结果发生巨大变化的?

1-g是单词。2g(或bigrams)是成对的单词。这就像根据"United"one_answers"States"或"United States"的存在对文件进行分类一样。使用双字符可能会有一些空间和性能方面的影响,但可能会比1-g产生更好的结果。

最新更新