小贝子编程

是否有用于语音到文本分割的说话人错误率算法?

本文关键字：错误率算法分割用于语音文本是否 speech-to-text transcription
更新时间 : 2023-09-14
英文 : Is there an algorithm for Speaker Error Rate for speech-to-text diarization?

一些语音转文本服务，如谷歌语音转文本，通过分割来提供说话人区分，它试图在单个录音中识别和分离多个说话人。当会议室中的多个扬声器共享一个麦克风时，通常需要这样做。

有没有算法和实现来计算说话人分离的正确性？

这将与单词错误率结合使用，后者通常用于测试基线转录的正确性。

常用的方法似乎是NIST在NIST-RT项目中定义的Diarization错误率(DER(。

一个较新的评估指标是《DIHARD II：第二次DIHARD语音分割挑战》中引入的Jaccard错误率(JER(。

衡量这些的两个项目包括：

DER在以下论文中被引用：

相关内容