颤振语音识别:如何获得单词的正确发音和用户发音之间的"similarity"百分比



如问题所述:我正在为法国孩子开发一款学习英语词汇的应用程序。我使用SpeechToText软件包添加了SpeechToText功能,它确实运行良好。然而,我现在遇到了一块坚硬的岩石。。。向学生们提出的活动之一就是简单的";听并重复";,以便他们逐渐提高发音。我也想过使用SpeechToText软件包。。。如果学生们把单词念得很好,那就行了。。。。一个例子是:;TH";对于讲法语的人来说是有问题的,并且经常发音为";Z";。。。因此该应用程序永远不会真正识别像";父亲;。。。它一直认为用户说";Fazza";。有没有一种方法可以比较;发音好";用户所说的一个词。。。得到";相似性";。我知道我们可以用这种方式比较字符串。

有人知道这个问题的解决方案吗?有什么建议吗?

您可以使用speechace API来获得以下功能:

  1. 发音评估
  2. 流利性评估
  3. 自发言语评估

最新更新