通过音频进行性别检测



我一直在通过读取音频文件的频率数据到处寻找某种形式的性别检测。我没有找到一个可以做到这一点的程序,甚至任何可以输出音频数据的程序,所以我可以编写一个基本的程序来读取它并操纵它以确定说话者的性别。

你们中有谁知道我在哪里可以找到一些东西来帮助我解决这个问题吗?

重申一下,我基本上想要一个程序,当一个人对着麦克风说话时,它会以相当精确的方式说出说话者的性别。我的完整计划是在其上也具有语音转文本功能,因此程序将写出演讲者所说的话,并给出演讲者的一些非常基本的人口统计数据。

*最好使用跨平台或 Linux 支持的通用脚本语言。

虽然是一个老问题,但如果有人有兴趣从音频中进行性别检测,您可以通过提取MFCC(梅尔频率倒谱系数)特征并使用机器学习模型GMM(高斯混合模型)对其进行建模来轻松做到这一点

可以按照本教程进行操作,该教程实现了相同的内容,并在从Google的AudioSet性别数据中提取的子集上对其进行了评估。

https://appliedmachinelearning.wordpress.com/2017/06/14/voice-gender-detection-using-gmms-a-python-primer/

您将需要研究共振峰检测和线性预测编码。这是一篇论文,其中包含一些可以移植到scipy/numpy的信号流图。

相关内容

  • 没有找到相关文章

最新更新