我目前正在分析两个数据集。数据集A有大约600000多个文档,而数据集B有大约7000多个文档。这是否意味着主题输出将更多地关于数据集A,因为它有一个更大的N?Rapidminer中mallet的输出仍然说明了每个主题下的文档。我想知道是否有一种方法可以使这两个数据集以相等的权重进行解释?
我假设您将训练语料库中的两个文档混合在一起,并形成训练。在这种假设下,那么主题输出很可能更多地是关于数据集";即将到来";来自A而不是B,因为吉布斯采样将根据最有可能也来自A的令牌的共同出现来构建主题。然而,两个数据集之间的主题间或主题相似性重叠也是可能的。
您可以对文档A进行采样,使其具有与B相同数量的文档,假设它们的主题结构并没有那么不同。或者,您可以检查日志输出的--output状态参数,以查看为每个令牌分配的主题(z(。