javascript音频API——分析音频文件以检测准确的声音,用于假唱



我见过类似waveform.js这样的东西,它使用Web Audio API来显示波形数据,还有许多其他工具可以用JavaScript分析音频文件的确切声点。

如果是这样的话,应该可以使用这种分析能力来使用JavaScript进行实时假唱,也就是说,通过简单地使用音频上下文,并读取数据点来找到正确的声音,让动画角色在用户说话的同时说话。

因此,问题变得更加具体:

我如何准确分析音频数据,以提取在特定时间戳发出的确切声音

我想得到类似大黄唇同步的最终结果,除了使用JavaScript,而且是实时的。它不一定要精确,但要尽可能接近。

没有任何算法可以100%正确检测音素。

你没有说这是实时使用还是离线使用,但这会强烈影响你使用的算法。

基于mel频率倒谱系数的算法预计会给你大约80%的准确率,这对于视频游戏等来说已经足够好了。

基于卷积神经网络的深度学习系统会给你很好的识别,但它们还不是实时系统。

例如,你可以从Meyda开始,将你正在听的信号的音频特征与每个音素的音频特征的人类编目库进行比较。

最新更新