使用槌槌时,如何获得与每个文档关联的主题列表?我想我需要使用火车主题和 - 输出主题docs,但是当我这样做时,我会出现错误。
我正在使用槌(2.0.8),我使用以下bash脚本进行建模:
MALLET=/Users/emorgan/desktop/mallet/bin/mallet
INPUT=/Users/emorgan/desktop/sermons
OBJECT=./object.mallet
$MALLET import-dir --input $INPUT --output $OBJECT --keep-sequence --remove-stopwords
$MALLET train-topics --input $OBJECT --num-topics 10 --num-top-words 1
--num-iterations 50
--output-doc-topics ./topics.txt
--output-topic-keys ./keys.txt
--xml-topic-report ./topic.xml
--output-topic-docs ./docs.txt
不幸的是,./docs.txt不会创建。相反,我会收到以下错误:
线程" main" java.lang.classcastException中的例外:java.net.uri不能被施放到java.lang.string 在cc.mallet.topics.paralleltopicmodel.printtopicdocuments(paralleltopicmodel.java:1773) 在cc.mallet.topics.tui.topictrainer.main(主题Trainer.java:281)
更具体地说,我希望Mallet生成一个文档列表和分配给其的相关主题,或者我想要一个主题列表,然后是关联文档的列表。如何创建此类列表?
至少在槌槌2.0.7中,--output-doc-topics ./topics.txt
给出了所需的表(每个文档的主题组成)。当输出格式从2.0.7变为2.0.8时,文件的主要内容保持不变。