槌槌构图文件上的null源



我想使用槌架进行培训主题。我的数据位于一个文件中,因此我研究槌文档以如何构建一个单个文件。

在mallet网站上,在下,一个文件,每行实例 e节,说:

[url] [语言] [页面...]

在这种情况下,第一个令牌 每行(Whitespace符合条件,带有可选逗号)成为 实例名称,第二个令牌变成标签,以及所有其他 线上的文字被解释为单词令牌的序列。

因此,根据上述报价,我以这种方式创建了我的单个文件:

127  en  some text here...
982  en  some text here...
1003  en  some text here...
...

然后导入此单个文件:

binmallet import-file --input data.txt --output data.mallet --keep-sequence

之后,我训练3个主题:

binmallet train-topics --input data.mallet --num-topics 3 --output-doc-topics data_composition.txt --word-topic-counts-file data_wcounts.txt

但是,当我打开data_composition.txt时,它具有以下结构:

#doc source topic proportion ...    
0 null-source 0 0.4057970941066742 1 0.3188405930995941 2 0.2753623127937317 

现在的问题是:为什么在此组成文件上拨出槌锤打印null-source?我希望它在源标题下打印URL(即ID)。

编辑:

我想要这样的东西:

#doc source topic proportion ...    
0     127   0 0.4057970941066742 1 0.3188405930995941 2 0.2753623127937317 
1     982    ... (topic probabilities) ...
2     1003   ... (topic probabilities) ...

预先感谢!

输入文件的第一列不包含URL。尝试

file://0

而不是0

尝试升级到最新的槌版本:http://mallet.cs.umass.edu/download.php

槌槌实例具有"名称"和一个"源"字段。在以前的版本中,--output-doc-topics打印了源。当前稳定版本2.0.8打印名称,即您要显示的字段。

请注意,此版本还默认为主题比例的"密集"表示,每个主题为一个列。

相关内容

  • 没有找到相关文章

最新更新