使用 MFCC 提取哪些特征或使用哪些参数来区分 ASR 系统中的用户



MFCC 在测试阶段从扬声器中提取哪些功能?

我知道如何计算 mfcc 步骤的方法是:

  • 我将信号分成 10 到 30 毫秒的小帧

  • 应用窗口功能(建议在声音应用中嗡嗡声 [原文如此])

  • 计算信号的傅里叶变换,

  • 使用 DFT,要计算梅尔频率倒谱系数:

    • 获取功率谱: |DFT|^2

    • 计算三角组滤波器以将 hz 刻度转换为梅尔刻度

    • 获取对数频谱

    • 应用离散余弦变换

通过这样做,我得到了系数。但我想知道这些系数与用户语音有何关系。这些系数代表什么?

MFCC为您提供音频源中按频率功率的时间序列。基于"原始"DFT的功率系列的调整有两个基本目的:

1)从线性刻度(频率和功率)从原始DFT更改为对数刻度。这与人类(和大多数动物)听觉系统感知声音的方式一致。

2)将大量数据压缩到一个较小的特征集中,该特征集仍然足以区分声音之间的重要感知差异。这种压缩在高频下特别有用 - 对于大多数语音/ASR 应用,检测 1001 Hz 和 999 Hz 功率电平之间的差异几乎没有价值。

这些系数代表什么?

音频源的频率内容,与原始DFT相同,但经过调整以匹配人类感知的已知属性。在分析口语交流时,这些调整在理论上是有意义的,因为我们的声音和听觉是共同进化的。

最新更新