语音转文本API离线(首选)或在线



我正在制作一个需要转录视频的windows桌面应用程序,我正在寻找一个好的免费API来帮助我实现这一点。我看了很多,但我发现的大多数API的精度都很差。

这不适用于.NET Core,但如果您使用的是旧版.NET Framework(受支持(,则可以使用System.Speech离线识别和合成语音。

https://learn.microsoft.com/en-us/dotnet/api/system.speech.recognition?view=netframework-4.8

https://learn.microsoft.com/en-us/dotnet/api/system.speech.recognition.speechrecognitionengine?view=netframework-4.8

更新3/1/21:System.Speech现已移植到.NET Core。Nuget软件包位于:https://www.nuget.org/packages/System.Speech

Google的Speech-to-Text API具有最先进的准确性、简单的界面和多种语言的客户端库。你每月有60分钟的免费时间。

链接:https://cloud.google.com/speech-to-text/

如果你想要完全免费的在线API,你很可能找不到它

如果你愿意离线,你可能必须使用一些公开的深度学习模型的权重来想出一个定制的解决方案。阅读一些关于最先进的转录模型的论文,看看GitHub上是否有任何权重。请记住,离线执行这样的任务在计算上非常昂贵,并且可能需要GPU在合理的时间内为您提供结果。

最新更新