我想将槌用作专家查找项目的一部分。我几乎是Mallet的新手,但我知道它会从一组文档中训练主题。假设我有50个由Mallet训练的主题。我想计算此概率:p(topic|q)
或p(q|topic)
q
是查询。这是一个单词(例如算法,Android等),我希望在指定区域找到专家。
当我阅读这篇文章时:如何使用槌槌获得单词主题概率,其中一位用户说我们可以使用--word-topic-counts-file
选项计算概率。假设我已经通过槌生了此文件。它具有以下结构:
0 android 2:21
1 is 3:3
.
.
.
我知道这种结构的语义,但是我不知道如何计算主题的概率给定查询(即p(topic|q)
或p(q|topic)
)
P.S:我使用"要么"一词。因为我不确定槌是否计算哪个
任何帮助都将不胜感激
从格里布特(Gliebrt
1 needham 19:2 17:1
这里p(主题| q)可以计算为
P(19 | Needham)= 2/3 = 0.67
和
P(17 | Needham)= 1/3 = 0.33
在您自己的示例中,它甚至更简单:
0 android 2:21
p(2 | android)= 1.0