一些语音转文本服务,如谷歌语音转文本,通过分割来提供说话人区分,它试图在单个录音中识别和分离多个说话人。当会议室中的多个扬声器共享一个麦克风时,通常需要这样做。
有没有算法和实现来计算说话人分离的正确性?
这将与单词错误率结合使用,后者通常用于测试基线转录的正确性。
常用的方法似乎是NIST在NIST-RT项目中定义的Diarization错误率(DER(。
一个较新的评估指标是《DIHARD II:第二次DIHARD语音分割挑战》中引入的Jaccard错误率(JER(。
衡量这些的两个项目包括:
- https://github.com/nryant/dscore
- https://github.com/wq2012/SimpleDER
DER在以下论文中被引用:
- 用于说话人分割的神经网络特征变换比较
- ICSI RT-09 扬声器分割系统