我正在使用MS Translator Speech WebSocket API进行实时语音识别和翻译。问题是有时识别的文本没有标点符号(逗号、句号等(。否则转录的文本看起来不错。我还收到了带有合成翻译的 MP3。
它看起来完全随机,我可以多次发送相同的音频,有些响应有标点符号,有些则没有。我以正确的格式和近乎实时的速率发送音频,例如,我每 ~100 毫秒发送 100 毫秒的样本。公认的语言是西班牙语。
这是一个常见问题还是还有其他问题?
切换到语音预览 API 解决了缺少标点符号的问题。目前只有SDK,原始WebSocket API尚未记录。我已经设法连接并使用了 WS API,更多信息在另一个 SO 问题中。
部分识别和最终识别有不同的响应类型。随着演讲的继续进入,您会收到部分认可,在演讲结束时获得最后一个认可。部分结果可能缺少标点符号和大小写,最终结果将具有大小写和标点符号。如果要忽略不带大小写和标点符号的响应,则需要筛选以仅查看最终响应。