Web 语音 API - 不要忽略环境噪音/音乐



因此,尽管这对我来说仍然有点震惊,但谷歌的默认语音识别完全忽略了音乐/环境噪声。问题是,对于我的用例,我希望它能真正尝试转录音乐!

我正在Chrome 72中使用Web Speech API和他们的演示。

  • 即使我把扬声器放在麦克风旁边,我也根本听不懂音乐。

  • 我也无法获取任何Youtube视频或在线播放的视频。

  • 它也听不到我Alexa说的任何话。

  • 我有一个安卓系统,所以我假设他们在广告中播放一种无法播放的声音来取消录制,这与亚马逊类似吗?有什么方法可以禁用它吗?

  • 如果我直接从Mac或PC上播放音乐,它也不起作用。

  • 然而,如果我与某人视频聊天(如果重要的话,可以使用WebRTC),并且他们说了一些通过扬声器播放的话,它确实会转录。

对于任何想知道的人,我希望它能转录一段在同一页面上播放的视频,视频中一个人在没有背景音乐的情况下说话。我正在使用他们的演示代码来看看这是否可行。

有没有办法识别这些声音?

为了澄清,我特别询问如何为Web Speech API禁用此功能,而不是通常为语音识别禁用此功能。

Web Speech API是从浏览器本身请求语音识别的一种非常特殊的方式(在Chrome中,它可以访问谷歌,在Firefox中,我相信他们有一个本地解决方案)。

这里有更多信息:https://developer.mozilla.org/en-US/docs/Web/API/Web_Speech_API但它缺乏文档,因为它在不同的浏览器中有所不同,我特别要求在Chrome中避免这种情况。

请注意,webkitSpeechRecognition将音频输入记录到麦克风,并将数据发送到远程服务。执行语音识别的实际代码没有附带Chromium源代码(Chrome就是从中构建的)。

W3C Web Speech API规范没有提供处理环境噪声/音乐的默认方法。在Chromium/Chrome浏览器中,开发人员无法控制远程服务如何处理捕获的音频或从远程服务返回的文字记录。用户生物特征数据被记录并发送到远程服务的事实,除了至少一份标记为WON'T FIX的Chromium错误报告和在GitHub上提交的问题之外,没有记录在案。

您可能对开源项目Tensorflow和CMU Pocket Sphinx感兴趣,在那里您可以创建自己的模型。Mozilla Voice Web包含大量可用于训练TTS/STT模型的数据。

最新更新