计算用户发出指定声音的准确率百分比



我想为我2岁的表弟设计一个网络应用程序,在这个应用程序中,我实现了一个功能,当点击图像时,会播放一些声音,用户必须发出与录制的声音相同的声音

例如,如果我点击";苹果;发出的声音是";A代表苹果";。现在用户必须说出那些被记录下来的单词
现在我想计算用户讲话的准确率。我想知道如何才能知道准确率百分比。我之前没有使用过机器学习或自然语言处理,所以我想要一些关于我应该学习什么或实现该功能的方法的指导。我需要一些帮助

还经常使用nodejs框架,因此nodejs中是否有任何模块可以在其帮助下满足上述要求。

您想要完成的是一项非常复杂且不平凡的任务,它可能在多个级别上面临。首先,你应该自己回答之前的一个问题:

你说">指控">您想使用哪个度量标准?准确性是指将结果与其最佳结果进行比较。那么说";苹果"?

我认为有几个级别可以衡量语音准确性:

  • 音频级别上:以下是几个可以计算两个音频文件相似性的相关度量。如需更多详细信息,请参阅此处。斯姆布利说,这个想法是直接比较音频样本。在你的情况下,你需要一个参考音轨;正确的";后果然而,正确的时间对齐可能会成为一个问题。

  • 语音识别级别上:您可以使用商业或开源的语音识别器,并返回一系列口语。在这种情况下,您应该考虑何时停止录制,以限制录制长度。然后你必须考虑一个度量来评估转录的正确性。我合作过的一些是Levenshein Distance或Word Error Rate。有了这些,你就可以计算出相似性。

最新更新