使用多个语音转文本 API 来提高准确性

有没有人尝试过使用两个或多个语音转文本 API 转录音频？您可以使用时间戳匹配单词，并以最高的置信度选择单词。如果有人这样做了，它是否显着提高了转录的准确性？值得吗？

由于许多不同的原因，这种方法可能会出现问题。并非所有供应商都逐字返回置信度分数，即使他们这样做了，一个供应商的 60% 置信度与来自不同供应商 API 的 60% 置信度分数并不意味着相同。置信度分数仅在发出它们的 API 上下文中有效。

在这一点上，大多数语音转文本供应商都有相当好的模型。有些(如IBM Watson(实际上允许您通过添加词汇来自定义模型。如果您查看针对SWITCHBOARD语料库的行业基准，您会注意到供应商不断改进并相互超越。在09/13/2016上，Microsoft宣布它的错误率最低(https://blogs.microsoft.com/next/2016/09/13/microsoft-researchers-achieve-speech-recognition-milestone/(。 2017年11月1日，谷歌声称已经击败了这一点，然后IBM在2017年7月3日(https://www.ibm.com/blogs/watson/2017/03/reaching-new-records-in-speech-recognition/(声称具有优势。差异都是百分之一或百分之一的改善。我预计这种跨越式的改进将在短期内持续下去。

所以总结一下 - 通过使用两个不同的API，你有效地将语音到文本实现的成本增加了一倍 - 这将很难证明，基于你将实现的准确性的最小改进。

这是许多演讲比赛的标准做法，当您不关心解码速度但需要良好的准确性时。系统组合通常会给您带来显着的改进，大约增加 10%，因此通常是有益的

您不需要时间戳来正确组合假设，您只需统计比较输出即可。有关该主题的参考，请改为

使用未转录数据进行识别器选择的配对测试比丘沙·拉吉、丽塔·辛格和詹姆斯·贝克

iCNC和iROVER：改进系统组合与分类的局限性？比约恩·霍夫迈斯特、拉尔夫·施卢特和赫尔曼·内伊

请参阅 SCTK 中 ROVER 的实现。

相关内容

最新更新

热门标签：