使用对数似然法比较不同的木槌主题模型?



我试图找出是否有可能 - 或者最好的方法 - 比较用mallet创建的编程方式不同的主题模型,以确定给定语料库的"最佳"拟合模型。

API 提供了一种确定生成模型的对数可能性的方法。参见 f.e. :#modelLogLikelihood((

Afaik 可以根据保留数据的对数可能性比较不同的模型。但是这种方法计算了..整个模型,我猜?我已经检查了源代码,但这并没有给黑暗带来光明。

所以我的问题是: 上述方法的输出是否适合比较不同的主题建模算法,如分层 PAM、LDA、DMR、...找出哪个模型(理论上(代表语料库的最佳方式?

对数似然计算的目的是提供一个在不同模型中可比较的指标。也就是说,我不建议以这种方式使用它。

首先,如果你真的关心语言模型预测可能性,你应该使用许多最近的深度神经模型之一。

其次,可能性对平滑参数非常敏感,因此您获得一致差异的事实可能只是您自己设置的伪影。标记化和多词项等预处理决策也可能比模型选择产生更大的影响。

第三,如果你真的对主题模型输出感兴趣,你应该清楚你想从模型中得到什么,以及模型的哪些特征使其对你的特定需求有用。我喜欢建议人们认为主题模型更像是制作地图而不是拟合回归。地图的最佳分辨率取决于您要去的地方。

最后,使用最简单的模型几乎可以肯定更好。

相关内容

  • 没有找到相关文章

最新更新