MFCC 在测试阶段从扬声器中提取哪些功能?
我知道如何计算 mfcc 步骤的方法是:
-
我将信号分成 10 到 30 毫秒的小帧
-
应用窗口功能(建议在声音应用中嗡嗡声 [原文如此])
-
计算信号的傅里叶变换,
-
使用 DFT,要计算梅尔频率倒谱系数:
-
获取功率谱: |DFT|^2
-
计算三角组滤波器以将 hz 刻度转换为梅尔刻度
-
获取对数频谱
-
应用离散余弦变换
-
通过这样做,我得到了系数。但我想知道这些系数与用户语音有何关系。这些系数代表什么?
MFCC为您提供音频源中按频率功率的时间序列。基于"原始"DFT的功率系列的调整有两个基本目的:
1)从线性刻度(频率和功率)从原始DFT更改为对数刻度。这与人类(和大多数动物)听觉系统感知声音的方式一致。
2)将大量数据压缩到一个较小的特征集中,该特征集仍然足以区分声音之间的重要感知差异。这种压缩在高频下特别有用 - 对于大多数语音/ASR 应用,检测 1001 Hz 和 999 Hz 功率电平之间的差异几乎没有价值。
这些系数代表什么?
音频源的频率内容,与原始DFT相同,但经过调整以匹配人类感知的已知属性。在分析口语交流时,这些调整在理论上是有意义的,因为我们的声音和听觉是共同进化的。