使用多个语音转文本 API 来提高准确性



有没有人尝试过使用两个或多个语音转文本 API 转录音频?您可以使用时间戳匹配单词,并以最高的置信度选择单词。如果有人这样做了,它是否显着提高了转录的准确性?值得吗?

由于许多不同的原因,这种方法可能会出现问题。 并非所有供应商都逐字返回置信度分数,即使他们这样做了,一个供应商的 60% 置信度与来自不同供应商 API 的 60% 置信度分数并不意味着相同。 置信度分数仅在发出它们的 API 上下文中有效。

在这一点上,大多数语音转文本供应商都有相当好的模型。 有些(如IBM Watson(实际上允许您通过添加词汇来自定义模型。 如果您查看针对SWITCHBOARD语料库的行业基准,您会注意到供应商不断改进并相互超越。 在09/13/2016上,Microsoft宣布它的错误率最低(https://blogs.microsoft.com/next/2016/09/13/microsoft-researchers-achieve-speech-recognition-milestone/(。 2017年11月1日,谷歌声称已经击败了这一点,然后IBM在2017年7月3日(https://www.ibm.com/blogs/watson/2017/03/reaching-new-records-in-speech-recognition/(声称具有优势。 差异都是百分之一或百分之一的改善。 我预计这种跨越式的改进将在短期内持续下去。

所以总结一下 - 通过使用两个不同的API,你有效地将语音到文本实现的成本增加了一倍 - 这将很难证明,基于你将实现的准确性的最小改进。

这是许多演讲比赛的标准做法,当您不关心解码速度但需要良好的准确性时。系统组合通常会给您带来显着的改进,大约增加 10%,因此通常是有益的

您不需要时间戳来正确组合假设,您只需统计比较输出即可。有关该主题的参考,请改为

使用未转录数据进行识别器选择的配对测试 比丘沙·拉吉、丽塔·辛格和詹姆斯·贝克

iCNC和iROVER:改进系统组合与分类的局限性? 比约恩·霍夫迈斯特、拉尔夫·施卢特和赫尔曼·内伊

请参阅 SCTK 中 ROVER 的实现。

最新更新