我开始使用google语音api转录音频。
正在转录的音频包含许多一个接一个说出的数字。
。273 298
但是转录返回270-3298
我猜它将其解释为某种电话号码。
我想要的是未解析的输出,例如:"二七三二九八",我可以自己处理和解析。
有这样的设置或支持吗?
谢谢
所以我遇到了同样的问题,我认为我们找到了解决方案。如果您使用英语作为输入,请在处理数字时切换到en-PH。这样,Google就不会将结果格式化为美国电话号码,也不会尝试在其中插入额外的数字。
尝试传递带有一些短语提示的语音上下文。如何使用它的文档在这里:https://cloud.google.com/speech/docs/basics#phrase-hints
给出你想要识别的数字。
"speech_context": {
"phrases":["zero", "one", "two", ... "nine", "ten", "eleven", ... "twenty", "thirty,..., "ninety"]
}
为了记录,我尝试了上面的blambert的解决方案,不幸的是它不起作用。我最近发布了另一个问题,看看是否有人找到了一种方法来打败这种行为,因为它阻止了我实现我计划的转录服务。
你试过Google Speech customClass吗?
你有一些可以使用的类令牌,告诉API你想要的不是电话号码,而是不同类型的号码。
例如,如果您选择使用OOV_CLASS_AM_RADIO_FREQUENCY,您将指示API这样解释数字:
- "十二twenty"——比;1220
- 七百三十"——比;730
可能(没有读过这个)API默认使用这个类FULLPHONENUM为数字:
- "一千八百五五五四哦哦一"——比;+ 1-800-555-4001
- "七一八五五五六一哦一"——比;718-555-6101