我已转介此文档。他们已经提到使用客户端库进行语音进行文本"长音频流(最多10分钟)"。
对文本的语音是否接受音频文件超过10分钟?如果我们通过音频文件> 10分钟会发生什么?
在我的用例中,我需要传递大于30分钟的音频文件。那么,我们必须在这些情况下做什么?
您可以使用ffmpeg以编程方式将较长的音频流拆分,然后将这些块传递给此客户端库。您可以将其检查到编程中,将长音频流分为时间指定的块:https://superuser.com/questions/525210/525210/splitting-an-an-audio-file-into-into-into-into-into-into-chunks-of-a of-a指定的lengtth。P>
然后,您可以将这些块中的文本组合起来,以使整个文本退回。不是最干净的方式 - 而是可以扩展的东西。