如何使用python将音频缓冲区传递给语音到文本服务

我使用azure语音到文本服务，使用python来处理一堆音频。为了处理音频，执行以下步骤-

从web服务器下载音频到本地'C:/audio'驱动器
将下载的音频路径传递到语音SDK的- Audioconfig(filename ='C:/audio/my_audio.wav')

我想从服务器获取文件并将其直接传递给语音转文本服务，而不是下载到本地机器。的,

我将bytes形式的音频存储在音频缓冲区中，像这样-raw_audio = my_audio_in_bytes # class <'bytes'>
然后，我将audiobuffer传递给AudioConfig(filename = raw_audio) -它不起作用。因为它需要一个文件路径

是否有一种方法来传递audiobuffer到这个服务?

配置python代码:

speech_config = speechsdk.SpeechConfig(subscription=speech_key, region=service_region)
audio_config = speechsdk.audio.AudioConfig(filename='C:/audios/audio1.wav')
speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config, audio_config=audio_config)

@user1990，根据我们对这个GitHub问题的讨论，请使用批处理转录，因为Speech SDK不直接支持从web服务上托管的WAV文件识别(您首先需要在本地下载它)。

相关内容

最新更新

热门标签：