我想知道,谷歌如何在他们的语音识别API中将语音转换为文本。
他们是否存储了几乎所有的声音并以特定的频率水平匹配它们,或者他们是否有一些不同的音频编码器和解码器算法来分析不同声音模式的声音,如"A"、"The"、"B"、"V"、"D"、"Hello"等,
如果有人可以共享,音频如何编码以及如何使用所有不同的声音过滤存储的音频,例如:-
具有弹吉他,鼓和人声的音乐,我想将它们过滤掉3个输出,分别使用吉他声音,鼓声分开,语音声音分开,并进一步解码语音到文本。
大学的任何文档链接或研究论文都会很棒。
谢谢
这里描述了谷歌语音识别器。要理解它,您可能需要阅读教科书 自动语音识别首先是深度学习方法。
吉他和鼓的分离通常通过非负矩阵分解来实现。