Google-speech-api错误地转录语音数字



我开始使用google语音api转录音频。

正在转录的音频包含许多一个接一个说出的数字。

。273 298

但是转录返回270-3298

我猜它将其解释为某种电话号码。

我想要的是未解析的输出,例如:"二七三二九八",我可以自己处理和解析。

有这样的设置或支持吗?

谢谢

所以我遇到了同样的问题,我认为我们找到了解决方案。如果您使用英语作为输入,请在处理数字时切换到en-PH。这样,Google就不会将结果格式化为美国电话号码,也不会尝试在其中插入额外的数字。

尝试传递带有一些短语提示的语音上下文。如何使用它的文档在这里:https://cloud.google.com/speech/docs/basics#phrase-hints

给出你想要识别的数字。

"speech_context": {
  "phrases":["zero", "one", "two", ... "nine", "ten", "eleven", ... "twenty", "thirty,..., "ninety"]
 }

为了记录,我尝试了上面的blambert的解决方案,不幸的是它不起作用。我最近发布了另一个问题,看看是否有人找到了一种方法来打败这种行为,因为它阻止了我实现我计划的转录服务。

你试过Google Speech customClass吗?

你有一些可以使用的类令牌,告诉API你想要的不是电话号码,而是不同类型的号码。

例如,如果您选择使用OOV_CLASS_AM_RADIO_FREQUENCY,您将指示API这样解释数字:

  • "十二twenty"——比;1220
  • 七百三十"——比;730

可能(没有读过这个)API默认使用这个类FULLPHONENUM为数字:

  • "一千八百五五五四哦哦一"——比;+ 1-800-555-4001
  • "七一八五五五六一哦一"——比;718-555-6101

相关内容

  • 没有找到相关文章

最新更新