如何获取新文档的主题向量并与槌中预定义主题模型进行比较



我正在尝试以某种方式将唯一文档的主题分布(使用LDA)与以前创建的主题模型(使用mallet。

我知道这可以通过终端中的槌命令来完成,但是我在找到在Java中实现此操作的方法有问题。

要大量了解我程序的功能是:

已经创建的主题模型是用大量文本创建的。我想使用它将主题分布与包含特定主题标签的推文进行比较,然后从语料库中拔出与Tweet最相似的文件。

ive通过槌槌的Java API文档阅读,但它们似乎非常令人困惑,而且不是真正的解释性。

如果有人能给我一些技巧,我会欣赏它

首先,看看这些:

  • 开发人员指南
  • 幻灯片后的教程幻灯片97
  • 源目录中的代码示例:src/cc/mallet/示例

现在,这些示例显示了基本功能,但是如果您需要将培训与测试分开,它们不会显示如何保存和加载模型。基本上,您需要的是保存训练后的模型和实例(因为您需要使用同一管道进行训练和测试),并在测试之前加载它们。

训练后保存模型和管道:

model.write(new File("model.dat"));
instances.save(new File("pipeline.dat"));

测试前的负载模型和管道:

ParallelTopicModel model = ParallelTopicModel.read(new File("model.dat"));
InstanceList instances = InstanceList.load(new File("pipeline.dat"));

希望这会有所帮助。

相关内容

  • 没有找到相关文章

最新更新