谷歌语音到文本无法正常工作与非常短的音频(单个单词)



我正在测试带有流音频和wav文件的google Speech-to-Text API。我使用的是来自电话的音频:8000采样率,8bits,mulaw编码。Google配置设置适当。

当我用正常序列测试它时,它会返回正确的转录。然而,当我说一个单词(尤其是一个数字(时,我经常得不到api的响应->就好像没有输入一样。这种情况发生在流式传输和批处理转录中。

有人知道为什么会发生这种事吗?如何修复?

云演讲到文本API最佳实践建议使用无损编解码器,如FLAC或LINEAR16。我用LINEAR16进行了验证,它适用于数字单词。因此,解决方案是对音频进行转码。

相关内容

  • 没有找到相关文章

最新更新