使用槌时,如何获得与每个文档相关的主题列表

  • 本文关键字:文档 列表 何获得 mallet
  • 更新时间 :
  • 英文 :


使用槌槌时,如何获得与每个文档关联的主题列表?我想我需要使用火车主题和 - 输出主题docs,但是当我这样做时,我会出现错误。

我正在使用槌(2.0.8),我使用以下bash脚本进行建模:

MALLET=/Users/emorgan/desktop/mallet/bin/mallet
INPUT=/Users/emorgan/desktop/sermons
OBJECT=./object.mallet
$MALLET import-dir --input $INPUT --output $OBJECT --keep-sequence --remove-stopwords
$MALLET train-topics --input $OBJECT --num-topics 10 --num-top-words 1 
--num-iterations 50 
--output-doc-topics ./topics.txt 
--output-topic-keys ./keys.txt 
--xml-topic-report ./topic.xml 
--output-topic-docs ./docs.txt

不幸的是,./docs.txt不会创建。相反,我会收到以下错误:

线程" main" java.lang.classcastException中的例外:java.net.uri不能被施放到java.lang.string 在cc.mallet.topics.paralleltopicmodel.printtopicdocuments(paralleltopicmodel.java:1773) 在cc.mallet.topics.tui.topictrainer.main(主题Trainer.java:281)

更具体地说,我希望Mallet生成一个文档列表和分配给其的相关主题,或者我想要一个主题列表,然后是关联文档的列表。如何创建此类列表?

至少在槌槌2.0.7中,--output-doc-topics ./topics.txt给出了所需的表(每个文档的主题组成)。当输出格式从2.0.7变为2.0.8时,文件的主要内容保持不变。

相关内容

  • 没有找到相关文章

最新更新