如何使用python将音频缓冲区传递给语音到文本服务



我使用azure语音到文本服务,使用python来处理一堆音频。为了处理音频,执行以下步骤-

  1. 从web服务器下载音频到本地'C:/audio'驱动器
  2. 将下载的音频路径传递到语音SDK的- Audioconfig(filename ='C:/audio/my_audio.wav')

我想从服务器获取文件并将其直接传递给语音转文本服务,而不是下载到本地机器。的,

  1. 我将bytes形式的音频存储在音频缓冲区中,像这样-raw_audio = my_audio_in_bytes # class <'bytes'>

  2. 然后,我将audiobuffer传递给AudioConfig(filename = raw_audio) -它不起作用。因为它需要一个文件路径

是否有一种方法来传递audiobuffer到这个服务?

配置python代码:
speech_config = speechsdk.SpeechConfig(subscription=speech_key, region=service_region)
audio_config = speechsdk.audio.AudioConfig(filename='C:/audios/audio1.wav')
speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config, audio_config=audio_config)  

@user1990,根据我们对这个GitHub问题的讨论,请使用批处理转录,因为Speech SDK不直接支持从web服务上托管的WAV文件识别(您首先需要在本地下载它)。

最新更新