r-LDA随时间的主题分布

我的目标是识别推文的主题，并可视化主题的分布如何随着时间的推移而变化。据我所知，最好的方法是使用stm包，但我对它有一些问题。所以，我唯一的选择是做一个简单的LDA。

根据每条推文的主题分享，我汇总了每年的主题分享量，并将每个主题分享量与每年的总分享量进行了比较(与此处相同https://towardsdatascience.com/thats-mental-using-lda-topic-modeling-to-investigate-the-discourse-on-mental-health-over-time-11da252259c3)。最终的可视化效果如下所示：随时间变化的主题

我的问题是，如果可以用LDA随着时间的推移可视化主题，那么在STM中这样做有什么意义？有什么重要的区别吗？

事后分析是衡量一段时间内主题流行率的好方法。LDA并没有明确地学习表示年份和主题之间关系的参数，但正如你所发现的，这并不意味着没有关系。

LDA通常不适用于像tweet这样的短文档。你也可以试试k均值。

如果你想像对待任何其他回归模型一样，对关系进行论证，STM是很有帮助的。这样做的好处是，你可能会得到与协变量更一致的主题，但通常没有必要。

从视觉上看，我真的不喜欢主题随时间变化结果的流图。例如，由于2000年艺术的激增，你无法判断那一年是否有其他话题在改变，因为它们都是"；"推到一边"；从上面看。每个主题都有自己的区域图，这样可以更容易地看到各个趋势。

相关内容

最新更新

热门标签：