小贝子编程

谷歌语音到文本无法正常工作与非常短的音频(单个单词)

本文关键字：非常单个单音频工作文本语音常工作谷歌 speech-recognition speech-to-text google-speech-api google-speech-to-text-api
更新时间 : 2023-09-20
英文 : google speech to text not working correctly with very short audio (single words)

我正在测试带有流音频和wav文件的google Speech-to-Text API。我使用的是来自电话的音频：8000采样率，8bits，mulaw编码。Google配置设置适当。

当我用正常序列测试它时，它会返回正确的转录。然而，当我说一个单词(尤其是一个数字(时，我经常得不到api的响应->就好像没有输入一样。这种情况发生在流式传输和批处理转录中。

有人知道为什么会发生这种事吗？如何修复？

云演讲到文本API最佳实践建议使用无损编解码器，如FLAC或LINEAR16。我用LINEAR16进行了验证，它适用于数字单词。因此，解决方案是对音频进行转码。

相关内容