我有一个格式为class, unigram count, bigram count, sentiment
的数字数据集。我浏览了一些ApacheMahout文档,这些文档都是关于文本数据的。我知道我需要执行3个步骤来分类:转换为序列文件,矢量化序列文件,传递它来训练Naive Bayes分类器。但我很难理解在Mahout中对文本数据集进行分类与对数字数据集进行归类之间的区别。在我的情况下,我需要做什么不同的事情?如果有任何帮助,我将不胜感激。
正如您所知,mahout不能使用文本数据来训练模型。如果你从数字数据集开始,分类会更容易,因为mahout处理的向量是数字数据向量。
我在文本数据集上使用了mahout,我知道在这种情况下,我必须使用dictionary将文本数据转换为数字数据。一些算法比其他算法处理得更好(例如,Naive Bayes强烈喜欢类似文本的数据)。
因此,在您的情况下,尝试使用其他分类器,如随机forrest或在线逻辑回归,以获得更有效的结果。根据我的经验,使用随机forrest,你可以定义你所拥有的特征类型(在你的情况下,所有的特征都是数字的),这样分类就可以很容易地完成。如果你想坚持使用朴素贝叶斯,我相信仍然可以对你的数字数据集进行分类,但我从未使用过它,所以我无法提供更多帮助。