置信度分数在语音识别中意味着什么



许多语音到文本服务(如谷歌的(都提供了置信度分数。至少对谷歌来说,它在0到1之间,但显然不是特定转录正确的概率,因为替代转录的置信度加起来超过1。此外,置信度较高的结果有时排名较低。

那么,它是什么?在语音识别社区中,"置信度分数"是否有公认的含义?我看到过关于最小贝叶斯风险的参考,但即使他们正在这样做,这也不能很好地回答问题,因为这取决于辅助损失函数的选择。

但显然不是特定转录正确的概率,因为替代转录的置信度加起来超过1

统计算法永远不会给你概率的值,它们会给你估计。在某些情况下,估计可能不准确,更重要的是,平均而言,它们接近理想。必须校准置信度。你可以在中查看一些理论

语音置信度的校准认出董宇,IEEE高级会员,李金宇,IEEE会员,李登,IE研究员https://www.microsoft.com/en-us/research/wp-content/uploads/2011/01/ConfidenceCalibration.pdf

在语音识别社区中,"置信度分数"是否有公认的含义?

不是,每个人都使用自己的算法。从简单的贝叶斯风险(这根本不是最好的估计(到更先进的方法。真的不可能知道谷歌是做什么的。在Kaldi中还有一个好算法的实现:https://github.com/kaldi-asr/kaldi/blob/master/egs/ami/s5/local/confidence_calibration.sh

相关内容

  • 没有找到相关文章

最新更新