语音识别 - 服务识别文本,直到我暂停,之后什么都没有



我正在开发一个应用程序,该应用程序允许用户讲一个短故事(1-2分钟)并将其转录为文本。

我使用 MediaCapture 进行流式传输,并将录制的语音与分块传输编码发送到必应语音 API。除了一个问题外,一切正常:如果用户暂停几秒钟并在识别暂停后继续任何他所说的内容。

我对记录的 wav 文件进行了相同的尝试,以确保分块传输不是此问题的根源。但它产生了相同的行为。因此,转移是正确的,我得到了有效的响应,但仅限于记录的第一部分。

有人遇到同样的问题吗?这是设计使然吗,如果是:有没有办法解决这种行为?

您可能想要使用 SDK。它更适合听写等长格式方案。在 rest API 中关闭连接之前,只需等待几秒钟,但对于 SDK 来说,等待时间更长。

相关内容

  • 没有找到相关文章

最新更新