如何使用机器学习从音频剪辑中提取人的声音



我们如何使用机器学习从音频剪辑中获取人类的声音,这可能会在整个频域上产生很多噪音。

与任何ML应用程序中一样,过程很简单:收集样本,设计功能,训练分类器。对于样本,您可以使用嘈杂的录音,也可以在诸如FreeSound.org之类的网络声音集合中找到很多声音。对于这些功能,您可以使用均值的MEL频率系数,可以在CMUSPHINX语音识别工具包中找到实现。对于分类器,您可以选择GMM或SVM。如果您有足够的数据,则可以很好地工作。

为提高准确性,您可以添加假设噪声和声音是连续的,因此,您可以使用宿醉方案(基本上是HMM)分析检测历史记录以检测语音块而不是单独分析每个帧。

>

最新更新