使用 MFCC 提取哪些特征或使用哪些参数来区分 ASR 系统中的用户

MFCC 在测试阶段从扬声器中提取哪些功能？

我知道如何计算 mfcc 步骤的方法是：

我将信号分成 10 到 30 毫秒的小帧
应用窗口功能（建议在声音应用中嗡嗡声 [原文如此]）
计算信号的傅里叶变换，
使用 DFT，要计算梅尔频率倒谱系数：
- 获取功率谱： |DFT|^2
- 计算三角组滤波器以将 hz 刻度转换为梅尔刻度
- 获取对数频谱
- 应用离散余弦变换

通过这样做，我得到了系数。但我想知道这些系数与用户语音有何关系。这些系数代表什么？

MFCC为您提供音频源中按频率功率的时间序列。基于"原始"DFT的功率系列的调整有两个基本目的：

1）从线性刻度（频率和功率）从原始DFT更改为对数刻度。这与人类（和大多数动物）听觉系统感知声音的方式一致。

2）将大量数据压缩到一个较小的特征集中，该特征集仍然足以区分声音之间的重要感知差异。这种压缩在高频下特别有用 - 对于大多数语音/ASR 应用，检测 1001 Hz 和 999 Hz 功率电平之间的差异几乎没有价值。

这些系数代表什么？

音频源的频率内容，与原始DFT相同，但经过调整以匹配人类感知的已知属性。在分析口语交流时，这些调整在理论上是有意义的，因为我们的声音和听觉是共同进化的。

相关内容