我需要实现语音"识别",即。通过匹配他/她的声音来猜测尝试登录的人是否实际上是他/她。 考虑这种情况,如果应用程序无法识别此人,但用户自己正在尝试登录,那么他可以使用 PIN 绕过它,在初始设置期间进行设置。
我正在使用Python和Flask来构建Web应用程序,并在问题中包含javascript,以便了解其中可能的方法。 到目前为止,我从一些来源读到了它,但我无法找到一个可能的解决方案,关于堆栈溢出,以及"少数"博客文章。
我能得到的最好的"可能"解决方案是认知语音服务,Microsoft - https://azure.microsoft.com/en-us/services/cognitive-services/speaker-recognition/
我还想过使用录音机录制语音.js,并在服务器端进行分析,但无法实现。
因此,我想要一种在 Web 应用程序上实现它的方法,即使是一个简单的要点,其中包含一些关于使用 ms 认知服务的代码(我确实阅读了文档的页面,但它没有多大帮助(,或者通过 python 执行此操作会有所帮助。
https://learn.microsoft.com/en-us/azure/cognitive-services/speaker-recognition/home 的文档会有所帮助。 请注意,有指向 API 参考的点击链接。 它解释了高级过程(使用"注册"进行训练(。
我们有说话人识别,它可以区分谁在说话和你训练的一组已知声音。 您需要提供标记数据(即已知说话者说话的示例(:请参阅 https://westus.dev.cognitive.microsoft.com/docs/services/563309b6778daf02acc0a508/operations/5645c3271984551c84ec6797。
或 请按照以下链接语音 SDK 示例进行操作。 https://learn.microsoft.com/en-us/azure/cognitive-services/speech-service/
您可以使用批量听录 API 并启用分割化。 https://learn.microsoft.com/en-us/azure/cognitive-services/speech-service/batch-transcription
正如@Ram指出的那样,我们可以使用认知服务Microsoft,我们使用相同的认知服务来实现它。
首先,我们需要一个来自认知语音服务的 Microsoft API 密钥(他们提供 2 个密钥,并在免费试用中提供 7 天的终结点,没有任何卡,另一个免费版本可能为期一年,包含卡详细信息( 在此处获取 API 密钥:https://azure.microsoft.com/en-in/try/cognitive-services/?unauthorized=1
然后,我浏览了Microsoft的文档,但无法真正得到帮助。 有帮助的是:https://github.com/rposbo/speaker-recognition-api
我浏览了所有文件,"需要"部分主要在语音识别 api-demo-core.js 和演示中.html 首先了解它真正在做什么,然后只有您可以在页面上实现它。 这实际上结束了答案,因为这就是它"可以"使用Javascript实现的方式。 额外 - https://github.com/AdityaGupta150/ProtoMain - 我们只使用了 Robin posbo 代码中需要的部分(你不能只是复制粘贴,首先理解它(,并实现了它,你可以在 templates/verification.html 中看到