我正在测试带有流音频和wav文件的google Speech-to-Text API。我使用的是来自电话的音频:8000采样率,8bits,mulaw编码。Google配置设置适当。
当我用正常序列测试它时,它会返回正确的转录。然而,当我说一个单词(尤其是一个数字(时,我经常得不到api的响应->就好像没有输入一样。这种情况发生在流式传输和批处理转录中。
有人知道为什么会发生这种事吗?如何修复?
云演讲到文本API最佳实践建议使用无损编解码器,如FLAC或LINEAR16。我用LINEAR16进行了验证,它适用于数字单词。因此,解决方案是对音频进行转码。