我是主题建模的新手,有点困惑。我已经多次运行 MALLET,主题数量具有不同的值。那么我怎么知道选择哪一个进行进一步分析呢?我知道有一些论文涉及主题模型的评估,但我不能编写这样的东西。
不要将主题数量视为文档的自然特征。它们并不是多项式分布的真正组合,因此没有"正确"的答案。有各种各样的好价值。
您应该将主题的数量视为集合地图的比例。如果您想要一个广泛的概述,请使用更少的主题。如果需要更多详细信息,请使用更多。正确的数字是产生有意义的结果的值,使您能够实现目标。