为什么在最近的神经网络语音识别系统中使用声谱图



为什么在最近的神经网络语音识别系统中使用声谱图(https://github.com/SeanNaren/CTCSpeechRecognition)而不是用神经网络层学习声谱图变换?

如果你对功能有所了解,那么使用这些信息通常很有用,而不是依赖于学习

例如,已知只有信号能量对于语音识别是重要的,而信号相位并不重要。这就是为什么与普通信号相比,使用频谱图更可取的原因,你只需要使用重要的信息,而不需要使用不重要的信息。能量计算需要平方,用单层学习并不容易,你需要几个层,或者你需要一个特殊的非线性。

实际上,更进一步地使用对数滤波器组更好,它可以产生具有相同预测质量的更紧凑的特征。

在某些情况下,相位很重要,其中之一是识别混合源,您可以根据相位信息分离源,就像DIET算法一样。但是,在考虑到这些问题之前,使用语音识别谱图。

最新更新