在说话者识别和语音识别中使用的MFCC功能之间的差异



我有一个概念问题。

我知道什么是MFCC。但是,我找不到用于说话者识别的MFCC特征向量和语音识别的区别,即MFCC特征的哪一部分用作两者之间的区分因素?而且,我们如何根据MFCC矢量区分两个说话者?

功能非常相似。有所作为的是系数,窗口大小,标准化...等。

使用MFCC功能,您可以通过多种方式不同。最著名的两种技术是:

  • gmm/ubm技术:在哪里为每个扬声器创建一个GMM,而另一个GMM作为背景模型,然后您为输入说服得分。
  • i-vector Technique :在MFCC上的帖子处理是一种代表说话者声学模型的新向量。此技术用于Microsoft Speaker识别服务,以下是有关其工作原理的描述。

最新更新