在计算音频信号各个帧的MFCC时,将MFCC x时间帧数的矩阵推广为信号的一组MFCC是否明智?如果是,那会是通过平均数吗?
我的意思是,通过平均,MFCC矩阵所包含的信息的准确性被扭曲/降低的程度是否仍然可以得到可靠的答案?
可以使用任何汇总统计数据,均值、标准差、偏斜、峰度等。还可以计算delta MFCC帧,然后对这些帧进行汇总统计。对于简单的音频问题,这可能还可以,但由于这种转换忽略了时间模式,这当然是有限制的。
丢失了多少信息在很大程度上取决于使用了多长时间窗口。以及在这段时间内有多少感兴趣的信号变化。这是非常依赖任务的。
只有MFCC摘要,将摇滚乐与古典音乐分离应该是非常可行的。或者男性从女性讲话。但是,很可能无法识别句子中的单词。