C# - 免费语音识别引擎库 (SDK)
系统.语音.识别非常糟糕...我想要另一个SDK,给我很好的结果,并在Visual Studio上使用c#...
我希望它离线而不是像谷歌 API 那样在线
谢谢
过去,我使用pocketsphinx或Sphinx(如果你有更多的可用资源)得到了很好的结果。在这里检查:https://cmusphinx.github.io/
当您选择实现语音识别系统时,即使您从头开始构建它,您也必须考虑以下方面:
如果语音识别引擎处于脱机状态,这意味着本地计算机必须支持计算负载。这样做的好处是,除了运行计算机和操作系统之外,您还可以使整个系统作为一个整体独立于任何基础结构。这种方法的缺点是,如果语言模型很大,您的 RAM 内存、GPU 和/或 CPU 将被请求。
如果语音识别引擎处于离线状态,则主机将支持计算负载,从而促进语音识别的系统基础结构。这样做的好处是将 RAM、CPU 和/或 GPU 负载保持在最低限度,还允许高端和低端设备与语音识别引擎和/或实现它的应用程序进行交互。缺点是实现语音识别引擎的系统依赖于托管语音识别引擎的远程计算机上的基础结构,因此这些服务器的任何停机时间都将使语音识别引擎在所有设备上的实现无法运行。
从你的问题中我可以看出你对System.Speech.Recognition
库的性能不满意,你说你想要离线的东西。具有高度准确性的可用离线语音识别引擎会消耗大量资源,因为它们具有大型语言模型以提供此准确性。在 C# 中,您有几个离线语音识别引擎:Vosk
和 Whispercpp
(c++
中 Whisper
的实现)。另一种选择是使用官方的 Whisper 实现,它是 Python 中的,在 python 脚本中运行它,并使脚本与 C# 应用程序通信。这些是高质量的离线语音识别引擎,准确程度会随着所用模型的大小而增加。但正如我之前所说,更高的精度需要更大的计算能力,为了使这些"不吸",您需要高性能硬件才能轻松运行更大的模型。
[ 沃斯克 ]
项目的GitHub页面:https://github.com/alphacep/vosk-api
语音识别引擎型号:https://alphacephei.com/vosk/models
[ 耳语.cpp ]
项目的GitHub页面:https://github.com/ggerganov/whisper.cpp
Whisper.cpp C# API GitHub 页面:https://github.com/Const-me/Whisper
[ 耳语 ]
项目的GitHub页面:https://github.com/openai/whisper
[ 结论 ]
我的建议是让你的实现使用在线语音识别引擎。如果应用程序仅在Windows上运行,请检查以下内容:https://stackoverflow.com/a/70041524/16587692。要实现这一点,请检查我的应用程序:https://sourceforge.net/projects/eva-ai/。对于我的应用程序的源代码,请检查以下内容:https://github.com/CSharpTeoMan911/Eva。
如果应用程序必须在多个平台上运行,请检查:
[ 耳语 API ]
惠珀在线语音识别引擎:https://platform.openai.com/docs/api-reference/introduction
[ 谷歌语音转文本 API ]
https://codelabs.developers.google.com/codelabs/cloud-speech-text-csharp#0