我有一个后续问题:槌主题建模 - 主题键输出参数
我希望我仍然可以得到这个主题的更详细的解释,因为我很难理解输出文件中的这些数字。
输出数字的总和能告诉我们什么?例如,对于 20 个主题和 2000 次迭代的优化值 20,输出的总和约为 2。使用相同的语料库,但有 15 个主题/1000 次迭代/优化 10,结果为 0,77,对于 10 个主题/1000 次迭代/优化 10,结果为 0,72。这是什么意思?这甚至意味着什么吗?
此外,这些人将这些结果称为参数,但据我了解,参数是优化间隔,而不是输出中的结果。那么在输出中引用结果的正确方法是什么?话题的频率?是某事的预兆吗?我错了哪一部分?
你是对的,参数在这里被用来表示两种不同的东西。
-
统计模型的参数是确定该模型属性的值。在这种情况下,他们决定了我们希望哪些主题更频繁地出现,以及我们对此的信心。在某些情况下,这些是由用户设置的,在其他情况下,它们是由推理算法设置的。
-
推理算法的参数是确定我们设置统计模型参数的过程的设置。
另一个令人困惑的是,当用户显式设置模型参数时,Mallet 使用与算法设置相同的界面。
您看到的数字是狄利克雷分布的参数,它描述了我们对文档中主题组合的先前期望。你可以把它想象成两部分:比例和大小。如果重新缩放数字以加起来为 1.0,则结果比例将告诉您模型对哪些主题最常出现的猜测。数字的实际总和(量级(告诉您模型的置信度,即这是您将在文档中看到的实际比例。值越小表示可变性越大。
对于您看到的数字(请将其视为原始推测(,一个可能的解释是,20 个主题模型具有更大的灵活性来适应一致的主题,因此它确信存在始终在文档中更频繁出现的主题的置信度大约高出三倍。随着主题数量的减少,主题的特殊性下降,因此任何特定主题在任何给定文档中都更有可能很大。