要直接使用Google的语音API,现在需要您获得API密钥。要获得该密钥,您必须订阅chromium-dev@chromium.org新闻组,然后遵循几个步骤,Google将为您提供一个"不用于分发"的开发人员密钥。密钥的速率限制为50个请求/天。
例如,node- Google - Speech - API概述了节点应用程序直接访问Google的Speech API(不使用浏览器)的需要:https://github.com/psirenny/node-google-speech-api
也有PHP库和Java库访问谷歌的语音API,也需要这个密钥。
我想写一个桌面应用程序,利用谷歌的语音识别技术,但是50个请求/天的限制是不可接受的广泛分发,甚至对于我设想的软件的单个桌面部署。如果语音识别以某种方式中断,我看到个人桌面用户每天多达500个请求,其中大多数可能是长轮询/连续的,所以可能只有2或3个请求/天,但一次需要几个小时。再乘以几百个用户,我很容易就会超过50个请求/天。
我正试图想出一种方法来访问谷歌的优越的语音识别技术在桌面在我自己的应用程序(语言并不重要,但node.js可能是混合的一部分,所以node.js解决方案将首选)没有这个限制,这使我考虑到Web语音API标准,谷歌浏览器恰好实现。
据我所知,没有硬请求/天限制强加于谷歌浏览器的Web语音API的实现,我可以很高兴地写网站,使用Web语音API整天没有或最小的限制相比,谷歌语音API直接。这让我想到,如果我分发一个Chrome浏览器(不是Chromium),所以真正的谷歌Chrome浏览器,但添加了一个"扩展",允许javascript在自定义html5网页内与客户端系统上的其他应用程序接口(即Node.js应用程序运行在这个特殊的Chrome安装),并编写我的语音识别部分在javascript, web语音API风格,并将输出管道传输到我设计并安装在客户系统上的其他应用程序中。
那可行吗?
这种方法的缺陷是什么?
您是否有其他方法的建议,或者您是否会推荐一种商业许可的解决方案,可以与谷歌语音技术的易用性和极端自然语言准确性相媲美?
一种可能的方法是尝试Chrome应用程序
它将在Chrome的沙盒实例中运行,并将通过HTML + Javascript实现。
对于用户来说,它看起来就像一个桌面应用程序。