Mahout-将文本转换为矢量



假设我有一组训练文本文档和一组测试文本文档。两套非常大,所以使用weka不是一个好的选择,因为它需要花费很多时间。因此,我使用了mahout——一个可扩展的机器学习和数据挖掘框架(http://mahout.apache.org/)。接下来,我使用mahout将训练文档转换为mahout向量(设置ngram=1)。这里我有一个表示训练文档的mahout向量,其中每个向量的大小是属性或特征的数量,该向量中的每个数字是训练文档中单词的频率(使用tf而不是tf-idf)有人知道如何根据我之前在mahout中构建的训练数据的特征或属性转换测试文档吗

您所指的"转换"实际上是一个"预测"。。不假设你已经训练了数据——大概你有一个可用的分类模型。

您可以在这里使用mahout的命令行设施:

http://mahout.apache.org/users/basics/creating-vectors-from-text.html

相关内容

  • 没有找到相关文章

最新更新