使用哪种语音识别系统



我想实现以下想法。我需要我的用户打开网页或移动应用程序并说些什么。用户的语音将被记录并发送到本地服务器,我希望服务器对其进行处理并生成一些语音输出。

我的问题是下一个:

  1. 使用哪种语音识别API?在我的情况下,音频文件将发送到服务器,然后进行处理。

  2. 我需要辨认姓名。这是一个潜在的问题,因为我不住在英语国家,对讲英语的人来说,名字和姓氏可能很奇怪。我想通过在语音识别系统的"字典"中添加所需的姓名来实现这一点,所以我需要一个可以扩展其字典的字典。

  3. 我需要一个自由的决定。

那么,在实现我的想法时,我应该使用哪种语音识别API呢?

我过去曾成功地使用CMU Sphinx工具包进行语音识别。我在安卓应用程序中使用了它的变体。如果我没记错的话,它确实允许创建一个特定单词的字典来查找,这样它就可以满足你的需求。

我建议您看看Nuance的Speech API。它们是市场上最好的,可以在任何平台上使用。我们将它们用于我们的产品LinguSocial,该产品提供接近实时的手机语音呼叫翻译;座机和机器翻译的视频聊天。

最新更新