我的问题涉及MALLET中的主题分配及其对结果解释的影响。
文档主题文件说明每个主题在文件中所占的比例。然而,在列表的顶部(58%(,我遇到了一个文件,该文件没有使用根据主题密钥文件构成主题X的单词之一。为了找到这个现象的答案,我检查了输出状态文件,了解到许多单词被分配给了主题X,但这些单词没有出现在主题键列表中。
为什么mallet不单独根据主题键文件中出现的单词(对主题来说最重要的单词(来计算文档主题文件中主题的比例?
主题键输出仅作为模型的可读摘要。主题实际上是整个词汇表的概率分布,尽管对于大多数单词来说,任何给定主题中的概率只与平滑参数成比例。为每个主题打印多达100-200个热门单词可以更好地了解主题所代表的内容,但首选单词的默认数量选择为每个终端行适合一个主题。