Mahout文本挖掘-给定奇异值的最重要单词



问题:有没有一种简单的方法可以查看与每个奇异值相关的最重要的单词?

背景:我已经将Mahout的奇异值分解工具应用于一系列新闻文章。这些文章来自两个主题:1)体育,2)商业。我希望看到与每个单数值相关联的最重要的单词。例如,对于一个单数值,我可能认为最突出的词是体育术语:得分、球队、球员、教练。对于另一个单一的价值,我可能会看到商业术语:公司、利润、收入。

我的方法:我正在考虑为每个奇异值制作一个文件,其中——对于给定的奇异值——单词按重要性降序排列。这只是一个想法。我愿意接受建议。

以下是我迄今为止用来生成Mahout奇异值的代码:

/mahout-distribution-0.7/bin/mahout svd 
-i /vectors/tfidf-vectors/
-o /svd-values/
--numRows 100 
--numCols 591 
-r 100

没有办法在项目中直接做到这一点,而且我自己也不知道这些代码。但我可以告诉你大致的想法。

在SVD中,你得到了一个类似a~=USV'的分解。假设A是您的文档术语矩阵。因此,A的列——以及V’的列——对应于单词。V’的行对应于奇异值(在S中)。事实上,它们是正确的奇异向量。你可以直接从中读出奇异向量与单词的关系。最大的绝对值是最重要的单词。

相关内容

  • 没有找到相关文章

最新更新