我正在用Java实现MFCC算法。
这里有一个示例代码:http://www.ee.columbia.edu/~dpwe/muscontent/practical/mfcc.m at Matlab。但是,我对梅尔过滤器银行流程有一些问题。如何生成三角形窗口以及如何使用它们?
PS1:一篇描述MFCC的文章:http://arxiv.org/pdf/1003.4083
PS2:如果有关于MFCC算法步骤的文档,那就太好了。
PS3:我的主要问题与此有关:带有Java线性和对数滤波器的MFCC,有些实现同时使用线性和对数滤波器,有些则不使用。什么是过滤器,什么是中心频繁的概念。我遵循那个代码:MFCC Java,它之间的区别是什么:MFCC Matlab
形窗口作为频带滤波器并不难实现。您基本上希望在每个频段内积分FFT数据(定义为中心频率i-1
和中心频率i+1
之间的频率空间)。
你基本上在寻找类似的东西,
for(int bandIdx = 0; bandIdx < numBands; bandIdx++) {
int startFreqIdx = centerFreqs[bandIdx-1];
int centerFreqIdx = centerFreqs[bandIdx];
int stopFreqIdx = centerFreqs[bandIdx+1];
for(int freq = startFreqIdx; i < centerFreqIdx; i++) {
magnitudeScale = centerFreqIdx-startFreqIdx;
bandData[bandIdx] += fftData[freq]*(i-startFreqIdx)/magnitudeScale;
}
for(int freq = centerFreqIdx; i <= stopFreqIdx; i++) {
magnitudeScale = centerFreqIdx-stopFreqIdx;
bandData[bandIdx] += fftData[freq]*(i-stopFreqIdx)/magnitudeScale;
}
}
如果你不理解"中心频率"或"频段"或"滤波器"的概念,那就拿起一本基本的信号教科书——你不应该在不了解它的作用的情况下实现这个算法。
至于确切的中心频率是多少,这取决于你。试验并选取(或在发布中查找)捕获要从数据中隔离的信息的值。之所以没有确定的值,甚至没有值的刻度,是因为该算法试图近似人耳,这是一种非常复杂的监听设备。虽然一个音阶可能更适合语音,但另一个音阶可能更适合音乐等。由您来选择合适的内容。
第二个答案 PS:我发现本教程确实帮助了我计算 MFCC。
至于三角形窗口和滤波器组,据我了解,它们确实重叠,它们不会扩展到负频率,并且从 FFT 频谱计算它们并将它们应用回它的整个过程是这样的:
- 选择滤波器的最小和最大频率(例如,最小频率 = 300Hz - 最小语音频率和最大频率 = 采样率/2。也许这是您应该选择您所说的 1000Hz 限制的地方)
- 根据所选的最小和最大频率计算 mel 值。公式在这里。
- 计算这两个 mel 值之间的 N 个相等距离值。(我看过 N 不同值的例子,你甚至可以在这项工作中找到不同值的效率比较,对于我的测试,我选择了 26 个)
- 将这些值转换回 Hz。 (您可以在同一个 wiki 页面上找到公式) => N + 2 个过滤器值的数组
- 为每三个连续值计算一个过滤器库(过滤器三角形),要么是托马斯上面建议的(小心索引),要么像本文开头推荐的 turorial 一样)=>数组数组,大小为 NxM,假设您的 FFT 返回 2*M 值并且您只使用 M。 将整个功率谱(从FFT获得的M值)通过每个三角形滤波器,以获得每个滤波器
- 的"滤波器组能量"(对于每个滤波器组(N环路),将FFT之后获得的每个幅度乘以相应滤波器组(M环路)中的每个值,并将M获得的值相加)=>N大小的能量数组。
这些是您的过滤器组能量,您可以进一步应用日志,应用 DCT 并提取 MFCC...