语言模型的困惑度怎么可能在 0 到 1 之间?



在Tensorflow中,我得到的输出是0.602129或0.663941。似乎接近 0 的值意味着更好的模型,但似乎困惑应该计算为 2^loss,这意味着损失是负的。这没有任何意义。

这对我来说没有多大意义。困惑度计算为2^entropy。熵从0到1。因此,<1 的结果没有意义。

我建议你看看你的模型是如何计算困惑度的,因为我怀疑可能存在错误。

相关内容

  • 没有找到相关文章

最新更新