是否有用于语音到文本分割的说话人错误率算法?



一些语音转文本服务,如谷歌语音转文本,通过分割来提供说话人区分,它试图在单个录音中识别和分离多个说话人。当会议室中的多个扬声器共享一个麦克风时,通常需要这样做。

有没有算法和实现来计算说话人分离的正确性?

这将与单词错误率结合使用,后者通常用于测试基线转录的正确性。

常用的方法似乎是NIST在NIST-RT项目中定义的Diarization错误率(DER(。

一个较新的评估指标是《DIHARD II:第二次DIHARD语音分割挑战》中引入的Jaccard错误率(JER(。

衡量这些的两个项目包括:

  • https://github.com/nryant/dscore
  • https://github.com/wq2012/SimpleDER

DER在以下论文中被引用:

  • 用于说话人分割的神经网络特征变换比较
  • ICSI RT-09 扬声器分割系统

最新更新