置信度分数在语音识别中意味着什么

许多语音到文本服务(如谷歌的(都提供了置信度分数。至少对谷歌来说，它在0到1之间，但显然不是特定转录正确的概率，因为替代转录的置信度加起来超过1。此外，置信度较高的结果有时排名较低。

那么，它是什么？在语音识别社区中，"置信度分数"是否有公认的含义？我看到过关于最小贝叶斯风险的参考，但即使他们正在这样做，这也不能很好地回答问题，因为这取决于辅助损失函数的选择。

但显然不是特定转录正确的概率，因为替代转录的置信度加起来超过1

统计算法永远不会给你概率的值，它们会给你估计。在某些情况下，估计可能不准确，更重要的是，平均而言，它们接近理想。必须校准置信度。你可以在中查看一些理论

语音置信度的校准认出董宇，IEEE高级会员，李金宇，IEEE会员，李登，IE研究员https://www.microsoft.com/en-us/research/wp-content/uploads/2011/01/ConfidenceCalibration.pdf

在语音识别社区中，"置信度分数"是否有公认的含义？

不是，每个人都使用自己的算法。从简单的贝叶斯风险(这根本不是最好的估计(到更先进的方法。真的不可能知道谷歌是做什么的。在Kaldi中还有一个好算法的实现：https://github.com/kaldi-asr/kaldi/blob/master/egs/ami/s5/local/confidence_calibration.sh

相关内容

最新更新

热门标签：