如何提高谷歌对分隔号码的语音识别准确性



我们将此图像提供给用户:

在此处输入图像描述

这张图片代表不同的数字。我们所有的用户都在麦克风里读成"11-0-9-5"。

我们使用谷歌语音引擎,它解释了这个结果:

"11095"。

这使得我们无法将口语与预期结果进行比较。我们陷入了这个阶段。

有没有一种方法可以告诉谷歌的语音识别从字面上和单独地理解口语数字,而不是将它们连接在一起?

您可以尝试使用语音上下文来约束GoogleSpeechEngine,使其坚持预定义的数字。https://cloud.google.com/speech-to-text/docs/reference/rest/v1/RecognitionConfig#SpeechContext

因此,如果你指定0,1,2,3,4,5,6,7,8,9,10,11作为可能的短语,谷歌不应该发回1109,因为它不在上下文中。

然而,使用这种方法,您必须列出所有可能的值,这可能会很乏味。有些案子解决不了。例如,如果有人把11打成1-1。

最新更新