小贝子编程

为什么在最近的神经网络语音识别系统中使用声谱图

为什么在最近的神经网络语音识别系统中使用声谱图(https://github.com/SeanNaren/CTCSpeechRecognition)而不是用神经网络层学习声谱图变换？

如果你对功能有所了解，那么使用这些信息通常很有用，而不是依赖于学习

例如，已知只有信号能量对于语音识别是重要的，而信号相位并不重要。这就是为什么与普通信号相比，使用频谱图更可取的原因，你只需要使用重要的信息，而不需要使用不重要的信息。能量计算需要平方，用单层学习并不容易，你需要几个层，或者你需要一个特殊的非线性。

实际上，更进一步地使用对数滤波器组更好，它可以产生具有相同预测质量的更紧凑的特征。

在某些情况下，相位很重要，其中之一是识别混合源，您可以根据相位信息分离源，就像DIET算法一样。但是，在考虑到这些问题之前，使用语音识别谱图。

相关内容