在Gensim上计算一个看不见的文档的主题分布



我正在尝试使用Gensim的LDA模块执行以下任务

"训练一个具有一个大文档的LDA模型,并跟踪10个潜在主题。给定一个新的,看不见的文档,预测10个潜在主题的概率分布"。

根据教程的按照教程:http://radimrehurek.com/gensim/tut2.html,对于语料库中的文档来说,这似乎有可能,但是我想知道是否有可能是看不见的文档。

谢谢!

从您发布的文档中,看起来您可以像这样训练模型:

>>> model = models.LdaModel(corpus, id2word=dictionary, num_topics=100)

然后从此页面上看,您可以将模型应用于这样的"看不见的文档":

>>> doc_lda = model[doc_bow]

其中doc_bowdoc2bow工具生成的单词袋。

最新更新