哪种是IBM语音到文本的最佳声音格式



IBM建议对提交给其Watson语音到文本服务的音频使用Opus声音格式。这个想法是Opus是专门为演讲而设计的。

否则,它说,当以flac格式提交音频时,你会得到比mp3格式更好的质量转录。后者的优点是体积小。毕竟,提交文件有100Mb的限制。所以你要权衡你的需求。到目前为止,这一切都是有道理的。

但从源WAV文件的转换来看,Opus文件的大小与mp3相当。

将一个366Mb的wav文件下采样到8k的采样率(建议使用该服务的两个采样率之一(,创建了一个66.4Mb的wav文件。将其转换为flac,wav和opus生成flac:43.6Mb;mp3:6.2Mb;作品:9.8Mb.

那么,作品真的是获得最准确转录的最佳选择吗?与flac相比,它这么小,这怎么可能呢?

Opus旨在有效地对语音进行编码。这些细节在链接的维基文章中有解释,但为了给你一个要点,请考虑一下人类的发声范围相当有限,大约在80到260赫兹之间。另一方面,或听力范围要大得多,高达20000Hz。音乐编码器(如mp3(必须大致在我们的听力范围内工作,而语音专用编码器(如Opus(可以专注于有效编码人声的重要内容,而不关心明显高于我们发声范围的内容。我希望这能提供一些直觉,说明Opus为什么如此高效。

它是最好的吗?这有点固执己见,但是的,我认为这是最好的选择之一。在维基百科之后引用,Opus取代了Vorbis和Speex用于新的应用程序,并且一些盲听测试将其列为在任何给定比特率下都高于任何其他标准音频格式的质量

最新更新