我正在尝试以某种方式将唯一文档的主题分布(使用LDA)与以前创建的主题模型(使用mallet。
我知道这可以通过终端中的槌命令来完成,但是我在找到在Java中实现此操作的方法有问题。
要大量了解我程序的功能是:
已经创建的主题模型是用大量文本创建的。我想使用它将主题分布与包含特定主题标签的推文进行比较,然后从语料库中拔出与Tweet最相似的文件。
ive通过槌槌的Java API文档阅读,但它们似乎非常令人困惑,而且不是真正的解释性。
如果有人能给我一些技巧,我会欣赏它
首先,看看这些:
- 开发人员指南
- 幻灯片后的教程幻灯片97
- 源目录中的代码示例:src/cc/mallet/示例
现在,这些示例显示了基本功能,但是如果您需要将培训与测试分开,它们不会显示如何保存和加载模型。基本上,您需要的是保存训练后的模型和实例(因为您需要使用同一管道进行训练和测试),并在测试之前加载它们。
训练后保存模型和管道:
model.write(new File("model.dat"));
instances.save(new File("pipeline.dat"));
测试前的负载模型和管道:
ParallelTopicModel model = ParallelTopicModel.read(new File("model.dat"));
InstanceList instances = InstanceList.load(new File("pipeline.dat"));
希望这会有所帮助。