如何使用MALLET获得查询的主题概率



我想将槌用作专家查找项目的一部分。我几乎是Mallet的新手,但我知道它会从一组文档中训练主题。假设我有50个由Mallet训练的主题。我想计算此概率:p(topic|q)p(q|topic)

q是查询。这是一个单词(例如算法,Android等),我希望在指定区域找到专家。

当我阅读这篇文章时:如何使用槌槌获得单词主题概率,其中一位用户说我们可以使用--word-topic-counts-file选项计算概率。假设我已经通过槌生了此文件。它具有以下结构:

0 android 2:21
1 is 3:3
.
.
.

我知道这种结构的语义,但是我不知道如何计算主题的概率给定查询(即p(topic|q)p(q|topic)

P.S:我使用"要么"一词。因为我不确定槌是否计算哪个

任何帮助都将不胜感激

从格里布特(Gliebrt

1 needham 19:2 17:1

这里p(主题| q)可以计算为

P(19 | Needham)= 2/3 = 0.67

P(17 | Needham)= 1/3 = 0.33

在您自己的示例中,它甚至更简单:

0 android 2:21

p(2 | android)= 1.0

相关内容

  • 没有找到相关文章

最新更新