在应用NMF、LDA、BERTopic等主题建模技术后,如何确定哪个文档属于特定主题



有什么方法可以将LDA、NMF和BERTopic生成的主题映射到文档列表并确定它属于哪个主题吗?单击此处查看示例

我不是NMF专家,3-4年前就尝试过LDA。不过,我对BERTopic有一个想法。在BERTopic中,当您拟合数据时,您会得到两个输出主题和问题(如果您将calculate_probabilities设置为True(。使用主题,您可以轻松地获得哪个文档分配给哪个主题。例如:topic_model=BERTopic(calculate_propobabilities=True(topics,probs=topic_model.fit_transform(文档(打印(主题(

示例:文档数=10,检索到的主题数=3(-1,0,1(当我们打印主题时,输出为[1,0,-1,-1,0,0,1,0,1],意味着文档0分配给主题1,文档1分配给主题0,文档3分配给主题-1(即异常值(,依此类推。希望对有所帮助

最新更新