我参考了这两个链接来运行mahout NB分类器
[1]http://tharindu-rusira.blogspot.com/2014/01/naive-bayes-classification-apache-mahout.html
[2]http://chimpler.wordpress.com/2013/03/13/using-the-mahout-naive-bayes-classifier-to-automatically-classify-twitter-messages/
我想使用我自己的测试集,而不是让mahout将我的数据分为训练集和测试集(80:20)。我怎样才能做到这一点?
为is取两个数据集进行训练&一个用于测试。
在两个集合上运行以下命令:
1.seqdirectory
2.seq2解析
现在,您将为这两个数据集生成向量
-使用第一个数据集的矢量输出运行trainnb命令。因此,我们不是在80%的数据上训练模型,而是使用整个数据集
-使用第二个数据集的矢量输出运行testnb命令。这不是20%的数据,这是一个全新的数据集,仅用于测试。
因此,我们没有使用mahout分割,而是指定了自己的数据集来测试您的模型。