从帧分组MFCC

在计算音频信号各个帧的MFCC时，将MFCC x时间帧数的矩阵推广为信号的一组MFCC是否明智？如果是，那会是通过平均数吗？

我的意思是，通过平均，MFCC矩阵所包含的信息的准确性被扭曲/降低的程度是否仍然可以得到可靠的答案？

可以使用任何汇总统计数据，均值、标准差、偏斜、峰度等。还可以计算delta MFCC帧，然后对这些帧进行汇总统计。对于简单的音频问题，这可能还可以，但由于这种转换忽略了时间模式，这当然是有限制的。

丢失了多少信息在很大程度上取决于使用了多长时间窗口。以及在这段时间内有多少感兴趣的信号变化。这是非常依赖任务的。

只有MFCC摘要，将摇滚乐与古典音乐分离应该是非常可行的。或者男性从女性讲话。但是，很可能无法识别句子中的单词。

相关内容