我正在尝试根据MFCC功能根据口语对输入音频样本进行分类。考虑的口语数量为两种。
到目前为止我尝试过:
n_components范围从 32 到 512
结果
我的尝试无法对音频样本进行准确分类。 现在,我不清楚上面的想法是否正确以及如何选择 组件的数量,以便改进结果。
可以通过观察组件责任来调整组件的数量,这意味着根据从该分布生成的较高概率标准检查分配给该组件的样本数量。增加n_components后,您将看到最有可能由组件生成的样本数量减少。如果责任太小,这可能是过度拟合的迹象。
你能解释一下你的分类器是如何工作的吗?
GMM 是一种生成模型,不能直接用于分类问题。最常见的错误是考虑到一个高斯分量应该对应于一个类。