Scikitlearn潜在的狄利克雷分配正在给出空洞的话题



我正在使用LDA的sklearn实现进行主题建模。在模型拟合之后,我得到了一些有意义的主题,单词的权重增加,所以这很好,但是我也得到了其他主题,所有单词的权重都与前一个(1/主题数)相似。这种行为对我来说听起来很奇怪,可能是什么原因?

有关我的设置的信息是:

  • 1000字词汇
  • 我正在向模型传递一个 ffidf 矩阵,使用此词汇超过 700+ 个文档,每个文档在 500 到 1000 个字符之间
  • 我尝试运行不同数量的 em 迭代,这不会改变结果
  • 我要求30个主题

我也想知道我是否有太多的主题,但如果确实如此,模型不应该改变主题的权重吗?

我有一个类似的问题,但就我而言,这与只有少量(大)文档有关。在这种情况下,在scikit-learn中实现的在线变分贝叶斯方法在查找信息主题时存在问题(但是,基于Gibbs采样的方法有效)。

我认为在你的情况下,问题是你正在传递一个"ffidf 矩阵"(我认为你的意思是 tfidf 矩阵)。据我所知,LDA 仅适用于离散数字,因此您需要传递 tf 矩阵(术语频率又名词袋又名文档术语矩阵 – DTM)。

相关内容

  • 没有找到相关文章

最新更新