要发送到bing speeh到文本API的最大音频文件长度(持续时间)应该是什么



我已转介此文档。他们已经提到使用客户端库进行语音进行文本"长音频流(最多10分钟)"。

对文本的语音是否接受音频文件超过10分钟?如果我们通过音频文件> 10分钟会发生什么?

在我的用例中,我需要传递大于30分钟的音频文件。那么,我们必须在这些情况下做什么?

您可以使用ffmpeg以编程方式将较长的音频流拆分,然后将这些块传递给此客户端库。您可以将其检查到编程中,将长音频流分为时间指定的块:https://superuser.com/questions/525210/525210/splitting-an-an-audio-file-into-into-into-into-into-into-chunks-of-a of-a指定的lengtth。P>

然后,您可以将这些块中的文本组合起来,以使整个文本退回。不是最干净的方式 - 而是可以扩展的东西。

相关内容

  • 没有找到相关文章

最新更新