为什么每次在Mallet中运行主题模型时都会得到不同的关键字和LL/令牌?这正常吗?
请帮忙。非常感谢。
是的,这是正常的,也是意料之中的事。Mallet实现了一个随机化算法。为一个集合找到精确的最优最佳主题模型在计算上是困难的,但要找到无数"最佳主题"模型中的一个要容易得多;相当不错";解决方案。
作为一种直觉,想象一下摇晃一盒沙子。较小的颗粒会向一侧筛选,较大的颗粒则会向另一侧筛选。这比手动排序更容易。你不会得到确切的排序,但每次你都会得到大量同样好的近似排序中的一个。
如果您想对局部最优性有更强的保证,请添加--num-icm-iterations 100
,以便在给定所有其他令牌的情况下,从采样切换到为每个令牌选择单个最佳分配。