我正在使用 mallet 主题建模工具,并且很难使其稳定(我得到的主题似乎不是很合乎逻辑)。
我使用过你的教程和那个教程:https://programminghistorian.org/en/lessons/topic-modeling-and-mallet#getting-your-own-texts-into-mallet,我对此有一些问题:
- 是否有一些最佳实践可以使该模型正常工作?除了优化命令(什么是好的数字)?迭代命令的好数字是多少?
- 我使用导入目录命令导入数据。在那个目录中有我的文件。这些文件是否包含带有新行的文本或只是很长的行?
- 我读到了关于 hLDA 模型的信息。当我尝试运行它时,我看到唯一的输出是状态.txt不是很清楚的输出。我希望像主题建模模型(topic_keys.txt、doc_topics.txt)这样的输出如何获得它们?
- 我什么时候应该使用 hLDA 而不是主题建模?
非常感谢您的帮助!
主题建模中良好实践的一些参考是 与Jordan Boyd-Graber和Dave Newman合作的主题模型的护理和喂养,以及与Jordan Boyd-Graber和Yuening Hu的应用主题建模。
对于超参数优化--optimize-interval 20 --optimize-burn-in 50
应该没问题,它似乎对特定值不是很敏感。Gibbs 采样的收敛性很难评估,默认的 1000 次迭代应解释为"一个足够大的数字,它可能没问题",而不是一个特定的值。
如果要从目录中的文件读取单个文档,则行无关紧要。如果在删除停用词之前文档的长度超过大约 1000 个标记,请考虑将它们分解为较小的段。
hLDA被包括在内只是因为人们似乎想要它,我不建议出于任何目的使用它。