计算用户发出指定声音的准确率百分比

我想为我2岁的表弟设计一个网络应用程序，在这个应用程序中，我实现了一个功能，当点击图像时，会播放一些声音，用户必须发出与录制的声音相同的声音

例如，如果我点击"；苹果；发出的声音是"；A代表苹果"；。现在用户必须说出那些被记录下来的单词
现在我想计算用户讲话的准确率。我想知道如何才能知道准确率百分比。我之前没有使用过机器学习或自然语言处理，所以我想要一些关于我应该学习什么或实现该功能的方法的指导。我需要一些帮助

还经常使用nodejs框架，因此nodejs中是否有任何模块可以在其帮助下满足上述要求。

您想要完成的是一项非常复杂且不平凡的任务，它可能在多个级别上面临。首先，你应该自己回答之前的一个问题：

你说">指控">您想使用哪个度量标准？准确性是指将结果与其最佳结果进行比较。那么说"；苹果"？

我认为有几个级别可以衡量语音准确性：

在音频级别上：以下是几个可以计算两个音频文件相似性的相关度量。如需更多详细信息，请参阅此处。斯姆布利说，这个想法是直接比较音频样本。在你的情况下，你需要一个参考音轨；正确的"；后果然而，正确的时间对齐可能会成为一个问题。
在语音识别级别上：您可以使用商业或开源的语音识别器，并返回一系列口语。在这种情况下，您应该考虑何时停止录制，以限制录制长度。然后你必须考虑一个度量来评估转录的正确性。我合作过的一些是Levenshein Distance或Word Error Rate。有了这些，你就可以计算出相似性。

相关内容

最新更新

热门标签：