如何在Apache Mahout中对数字数据进行分类

我有一个格式为class, unigram count, bigram count, sentiment的数字数据集。我浏览了一些ApacheMahout文档，这些文档都是关于文本数据的。我知道我需要执行3个步骤来分类：转换为序列文件，矢量化序列文件，传递它来训练Naive Bayes分类器。但我很难理解在Mahout中对文本数据集进行分类与对数字数据集进行归类之间的区别。在我的情况下，我需要做什么不同的事情？如果有任何帮助，我将不胜感激。

正如您所知，mahout不能使用文本数据来训练模型。如果你从数字数据集开始，分类会更容易，因为mahout处理的向量是数字数据向量。

我在文本数据集上使用了mahout，我知道在这种情况下，我必须使用dictionary将文本数据转换为数字数据。一些算法比其他算法处理得更好（例如，Naive Bayes强烈喜欢类似文本的数据）。

因此，在您的情况下，尝试使用其他分类器，如随机forrest或在线逻辑回归，以获得更有效的结果。根据我的经验，使用随机forrest，你可以定义你所拥有的特征类型（在你的情况下，所有的特征都是数字的），这样分类就可以很容易地完成。如果你想坚持使用朴素贝叶斯，我相信仍然可以对你的数字数据集进行分类，但我从未使用过它，所以我无法提供更多帮助。

相关内容

最新更新

热门标签：