我正在尝试构建一个自定义的ASR,我可以考虑三个选项来实现它。
- 谷歌STT
- Nvidia Riva
- Kaldi ASR
哪种最适合自定义?
Nvidia Riva和Kaldi ASR都比Google STT更具可定制性。然而,后者更容易使用,并且仍然允许少量的自定义,例如提示短语。
谷歌STT:
- Google STT是一项基于云的语音识别服务,提供卓越的准确性并支持多种语言。它易于使用,并且有一个简单的API。但是,你不能自定义谷歌STT。您只能设置API的某些参数
Nvidia Riva:
- Nvidia Riva是一个基于GPU的平台,用于构建和部署语音识别模型。它提供了出色的性能和灵活性,您可以完全控制训练过程。但是,Riva只能部署在受支持的机型上
Kaldi ASR:
- Kaldi是一个用于语音识别的开源工具包,提供了广泛的自定义选项。它支持各种声学和语言模型,并为构建自定义模型提供了一个灵活的框架。然而,大多数模型都专注于研究,而不是生产