小贝子编程

语音识别 - 服务识别文本，直到我暂停，之后什么都没有

本文关键字：之后暂停服务识别文本语音识别 speech-recognition speech-to-text bing azure-cognitive-services
更新时间 : 2023-08-21
英文 : speech recognition - Service recognize text until I pause and nothing after

我正在开发一个应用程序，该应用程序允许用户讲一个短故事（1-2分钟）并将其转录为文本。

我使用 MediaCapture 进行流式传输，并将录制的语音与分块传输编码发送到必应语音 API。除了一个问题外，一切正常：如果用户暂停几秒钟并在识别暂停后继续任何他所说的内容。

我对记录的 wav 文件进行了相同的尝试，以确保分块传输不是此问题的根源。但它产生了相同的行为。因此，转移是正确的，我得到了有效的响应，但仅限于记录的第一部分。

有人遇到同样的问题吗？这是设计使然吗，如果是：有没有办法解决这种行为？

您可能想要使用 SDK。它更适合听写等长格式方案。在 rest API 中关闭连接之前，只需等待几秒钟，但对于 SDK 来说，等待时间更长。

相关内容