Mahout文本挖掘-给定奇异值的最重要单词

问题：有没有一种简单的方法可以查看与每个奇异值相关的最重要的单词？

背景：我已经将Mahout的奇异值分解工具应用于一系列新闻文章。这些文章来自两个主题：1）体育，2）商业。我希望看到与每个单数值相关联的最重要的单词。例如，对于一个单数值，我可能认为最突出的词是体育术语：得分、球队、球员、教练。对于另一个单一的价值，我可能会看到商业术语：公司、利润、收入。

我的方法：我正在考虑为每个奇异值制作一个文件，其中——对于给定的奇异值——单词按重要性降序排列。这只是一个想法。我愿意接受建议。

以下是我迄今为止用来生成Mahout奇异值的代码：

/mahout-distribution-0.7/bin/mahout svd 
-i /vectors/tfidf-vectors/
-o /svd-values/
--numRows 100 
--numCols 591 
-r 100

没有办法在项目中直接做到这一点，而且我自己也不知道这些代码。但我可以告诉你大致的想法。

在SVD中，你得到了一个类似a~=USV'的分解。假设A是您的文档术语矩阵。因此，A的列——以及V’的列——对应于单词。V’的行对应于奇异值（在S中）。事实上，它们是正确的奇异向量。你可以直接从中读出奇异向量与单词的关系。最大的绝对值是最重要的单词。

相关内容