我有一个关于Mallet主题建模的问题要问。 它如何为 LDA 设置其默认超参数,即 alpha 和 beta?
alpha
的默认值为 5.0 除以主题数。你可以把它看作是五个"伪词",在主题的均匀分布上占权重。如果文件很短,我们希望更接近制服。如果文件很长,我们会更有信心摆脱先前的文件。
通过超参数优化,每个主题的alpha
值可以不同。它们通常会小于默认设置。
beta
的默认值为 0.01。这意味着每个主题在统一先验上的权重等于词汇量除以 100。这似乎是一个不错的价值。启用优化后,该值的变化很少超过两倍。