使 Mallet 主题建模稳定

我正在使用 mallet 主题建模工具，并且很难使其稳定(我得到的主题似乎不是很合乎逻辑)。

我使用过你的教程和那个教程：https://programminghistorian.org/en/lessons/topic-modeling-and-mallet#getting-your-own-texts-into-mallet，我对此有一些问题：

是否有一些最佳实践可以使该模型正常工作？除了优化命令(什么是好的数字)？迭代命令的好数字是多少？
我使用导入目录命令导入数据。在那个目录中有我的文件。这些文件是否包含带有新行的文本或只是很长的行？
我读到了关于 hLDA 模型的信息。当我尝试运行它时，我看到唯一的输出是状态.txt不是很清楚的输出。我希望像主题建模模型(topic_keys.txt、doc_topics.txt)这样的输出如何获得它们？
我什么时候应该使用 hLDA 而不是主题建模？

非常感谢您的帮助！

主题建模中良好实践的一些参考是与Jordan Boyd-Graber和Dave Newman合作的主题模型的护理和喂养，以及与Jordan Boyd-Graber和Yuening Hu的应用主题建模。

对于超参数优化--optimize-interval 20 --optimize-burn-in 50应该没问题，它似乎对特定值不是很敏感。Gibbs 采样的收敛性很难评估，默认的 1000 次迭代应解释为"一个足够大的数字，它可能没问题"，而不是一个特定的值。

如果要从目录中的文件读取单个文档，则行无关紧要。如果在删除停用词之前文档的长度超过大约 1000 个标记，请考虑将它们分解为较小的段。

hLDA被包括在内只是因为人们似乎想要它，我不建议出于任何目的使用它。

相关内容