网页和本地语音识别应用程序之间的通信



我们正在构建一个基于网络的信息系统,但在我们的一些工作站上(比方说5%),我们需要从网页上获得语音识别。今天,我们使用一个本地winform来完成这项工作,该winform是使用本地WCF客户端从网页启动的(之后我们还使用该客户端将文本放入网络编辑器),但这当然不是最好的集成。我不想要那种winform。我希望文本立即出现在网站上。

关于语音识别:我们有API,但这是本地软件。我们必须与他们互动,因为网页中的母语语音识别仍然很难做到,尤其是当你必须与语音麦克风(和按钮)等互动时

我们的想法是在后台应用程序中进行识别,并将结果发送给网页中的编辑器。例如,我们可以将本地应用程序作为与网页通信的本地Web服务器来运行。

因此,我的问题是:在知道我们有一个受控的环境,并且我们对网页和本地应用程序都有控制权的情况下,从网页与本地应用程序通信的最佳选择是什么(反之亦然)。我想的是,使用本地(主机)应用程序和网页之间的websocket将文本从应用程序传输到网站。请告诉我你对此的看法。

有一个HTML5音频api可以让你录制音频,你可以在这里找到例子:

http://www.html5rocks.com/en/tutorials/getusermedia/intro/

您可以找到此实现的几个扩展,例如

https://github.com/mattdiamond/Recorderjs

您可以将捕获的音频发送到服务器,以便使用websocket进行处理。如果你运行的是node.js服务器,你可以使用socket.io,你可以在这里找到例子:

https://github.com/cmusphinx/node-pocketsphinx/blob/master/demo/public/index.html

这个框架在新的浏览器中是受支持的,如果你想支持旧的浏览器,你可以使用flash技术,例如:

https://code.google.com/p/red5/

最新更新