我的目标是识别推文的主题,并可视化主题的分布如何随着时间的推移而变化。据我所知,最好的方法是使用stm包,但我对它有一些问题。所以,我唯一的选择是做一个简单的LDA。
根据每条推文的主题分享,我汇总了每年的主题分享量,并将每个主题分享量与每年的总分享量进行了比较(与此处相同https://towardsdatascience.com/thats-mental-using-lda-topic-modeling-to-investigate-the-discourse-on-mental-health-over-time-11da252259c3)。最终的可视化效果如下所示:随时间变化的主题
我的问题是,如果可以用LDA随着时间的推移可视化主题,那么在STM中这样做有什么意义?有什么重要的区别吗?
事后分析是衡量一段时间内主题流行率的好方法。LDA并没有明确地学习表示年份和主题之间关系的参数,但正如你所发现的,这并不意味着没有关系。
LDA通常不适用于像tweet这样的短文档。你也可以试试k均值。
如果你想像对待任何其他回归模型一样,对关系进行论证,STM是很有帮助的。这样做的好处是,你可能会得到与协变量更一致的主题,但通常没有必要。
从视觉上看,我真的不喜欢主题随时间变化结果的流图。例如,由于2000年艺术的激增,你无法判断那一年是否有其他话题在改变,因为它们都是";"推到一边";从上面看。每个主题都有自己的区域图,这样可以更容易地看到各个趋势。