如何在 MALLET 中获取两个文档之间的余弦相似性?



我有一个使用 MALLET 训练的 LDA 主题模型,但我想计算两个文档之间的余弦相似性以获得相似性,但我不确定 MALLET 输出的余弦值。

我的余弦相似函数工作正常,但不确定我在 MALLET 中比较什么。

任何帮助将不胜感激!

每个文档都将由其主题组成表示,因此您必须比较它们。使用--output-doc-topics参数以获取所需的文件。

行是文档,列是属于文档的每个主题的比例。在当前版本 (2.0.8) 中,列按主题 ID 升序排序 - 否则它们从最高概率到最低概率排序。

除了余弦相似性之外,您还应该考虑不同的度量,例如(对称)Kullback-Leibler散度或海灵格距离。

相关内容

  • 没有找到相关文章

最新更新