机器学习 - 关于 Blei's lda-c-dist 的推理结果



我有一个关于 lda-c-dist 包的推理结果的问题。查看推理结果时应显示多少个单词?例如,如果我将单词数设置为非常大的数字N(假设所有术语的数量为N),则似乎存在一些单词组。在每个组中,单词索引的范围从 1 到 N。

我得到的是,假设术语数为 10,我将显示的单词数分配给 10。

Topic 0xx:
001
008
009
002
003
007
000
004
005
006

看来,也许我应该设置显示3个单词,而不是10个。

那么,对于一个主题,在通过调用 topics.py 查看主题时,应该指定多少个单词?

此外,我将使用此输出来计算两个主题的相似性。所以。。。

实际上,词汇表可以有多少项目。这里显示的只是指示的有限数量的概率降序。

最新更新