我有一个概念问题。
我知道什么是MFCC。但是,我找不到用于说话者识别的MFCC特征向量和语音识别的区别,即MFCC特征的哪一部分用作两者之间的区分因素?而且,我们如何根据MFCC矢量区分两个说话者?
功能非常相似。有所作为的是系数,窗口大小,标准化...等。
使用MFCC功能,您可以通过多种方式不同。最著名的两种技术是:
- gmm/ubm技术:在哪里为每个扬声器创建一个GMM,而另一个GMM作为背景模型,然后您为输入说服得分。
- i-vector Technique :在MFCC上的帖子处理是一种代表说话者声学模型的新向量。此技术用于Microsoft Speaker识别服务,以下是有关其工作原理的描述。