Microsoft语音产品/平台之间的差异

似乎Microsoft提供了相当多的语音识别产品，我想知道它们之间的区别。

有Microsoft语音 API或 SAPI。但不知何故Microsoft认知服务语音 API 具有相同的名称。
现在好了，Azure 上的认知服务Microsoft提供语音服务API 和必应语音 API。我假设对于语音转文本，这两个 API 是相同的。
然后是System.Speech.Recognition(或Desktop SAPI(，Microsoft.Speech.Recognition(或Server SAPI(和Windows.Media.Speech.Recognition。这里和这里有一些关于三者之间区别的解释。但我的猜测是，它们是基于HMM的旧语音识别模型，也就是不是神经网络模型，这三个都可以在没有互联网连接的情况下离线使用，对吧？
对于 Azure 语音服务和必应语音 API，它们是更高级的语音模型，对吗？但是我认为无法在本地计算机上离线使用它们，因为它们都需要订阅验证。(即使看起来必应API有一个C#桌面库。

从本质上讲，我希望有一个离线模型，该模型为我的对话数据(每个录音 5-10 分钟(进行语音到文本转录，该模型可识别多说话人并输出时间戳(或时间编码输出(。我现在对所有选项都有点困惑。如果有人能向我解释，我将不胜感激，非常感谢！

一个困难的问题 - 也是它如此困难的部分原因：我们(Microsoft(似乎提出了一个关于"语音"和"语音API"的不连贯的故事。虽然我为Microsoft工作，但以下是我对此的看法。我尝试深入了解我的团队(认知服务语音 - 客户端 SDK(中正在计划的内容，但我无法预测近期的所有方面。

Microsoft很早就认识到语音是一种重要的媒介，因此Microsoft在其产品中实现语音有着广泛而悠久的历史。有非常好的语音解决方案(具有本地识别(，您列出了其中的一些。

我们正在努力统一这一点，并为您提供一个地方，让您在Microsoft找到最先进的语音解决方案。这是"Microsoft语音服务"(https://learn.microsoft.com/de-de/azure/cognitive-services/speech-service/( - 目前为预览版。

在服务方面，它将把我们的主要语音技术，如语音转文本、文本转语音、意图、翻译(和未来的服务(结合在一个保护伞下。语音和语言模型不断改进和更新。我们正在为此服务开发客户端 SDK。随着时间的推移(今年晚些时候(，该SDK将在所有主要操作系统(Windows，Linux，Android，iOS(上可用，并支持主要编程语言。我们将继续增强/改进对 SDK 的平台和语言支持。

联机服务和客户端 SDK 的这种组合将在今年晚些时候离开预览状态。

我们理解拥有本地识别功能的愿望。它不会在我们的第一个 SDK 版本中"开箱即用"(它也不是当前预览版的一部分(。SDK 的一个目标是平台和语言之间的奇偶校验(功能和 API(。这需要大量的工作。离线现在不是其中的一部分，我无法在这里做出任何预测，无论是在功能还是时间线上......

因此，从我的角度来看，新的语音服务和SDK是前进的方向。目标是在所有平台上使用统一的 API，轻松访问所有Microsoft语音服务。它需要订阅密钥，它要求你已"连接"。我们正在努力在今年晚些时候使(服务器和客户端(退出预览状态。

希望这有帮助...

沃尔夫冈

相关内容

最新更新

热门标签：