更改 MALLET 中主题分发文件中列的顺序



MALLET 在训练主题模型时使用--output-doc-topics参数生成一个制表符分隔的文件,其中包含每个文档的主题分布。它看起来像这样:

doc#    filename    topic#    weight
0    file:/.../document_01.txt    3     0.2110215053763441    14    0.1330645161    ...

但是,我需要对这个文件进行不同的排序以进行进一步处理。现在,列按主题权重降序排序(0.211...,0.133...等)。但是,是否也可以按主题编号(0、1、2、...)及其相应的权重对其进行排序?

最初,我认为可以使用Excel进行排序,但是文件太大(>20 GB)。

是否有 MALLET 参数?我已经浏览了--help部分,但没有找到任何相关内容。

否则,您能否推荐一种能够进行这种排序的工具或 API?

谢谢!

如果您获得最新版本 (2.0.8),则默认按主题 id 的排序顺序显示所有主题:

--doc-topics-max INTEGER
When writing topic proportions per document with --output-doc-topics, do not print more than INTEGER number of topics.  A negative value indicates that all topics should be printed.
Default is -1

相关内容

  • 没有找到相关文章

最新更新