gensim LDA training



我正在为一个项目使用gensim LDA模型。我似乎找不到合适的题目。我的问题是,只是为了确定,每次我训练模型时,它都会重新启动,对吧?例如,我尝试了47个主题,结果很糟糕;然后我回到单元格,将47个主题更改为80个主题,然后再次运行它。它完全开始了一次新的训练,并抹去了它所学的47个主题,对吧?

我的LDA结果很糟糕,相似性达到100%或0%,参数调整也很困难。LSI给了我极好的结果。谢谢

是的,每次训练LDA时,它都会忘记迄今为止所学的内容。

一些建议和意见,可能会帮助你获得更好的结果:

  • 请确保对文本进行了适当的预处理。这通常包括删除标点符号和数字,删除停止语和过于频繁或罕见的单词,(可选(将文本混淆。预处理取决于文本的语言和领域
  • 关于超参数,您可以使用";自动;模式,让模型学习阿尔法和贝塔的最佳值。如果要修复它们,通常建议使用低于1的值。检查这个
  • LDA是一个概率模型,这意味着如果你用相同的超参数重新训练它,每次都会得到不同的结果

最新更新