语音到文本和视频智能Speech_TRANSSCRIPTION如何相关

我的目标是使用语音到文本模型处理几个视频。

令人困惑的是，谷歌有两款产品似乎做着同样的事情。

这些产品之间的主要区别是什么？

谷歌云语音到文本：https://cloud.google.com/speech-to-text/docs/basics
- 语音到文本有一个"；增强视频"；用于解释音频的模型
谷歌视频智能：https://cloud.google.com/video-intelligence/docs/feature-speech-transcription
- VI可以选择请求SPEECH_TRANSCRIPTION功能

两者之间的主要区别在于使用的输入。语音到文本API只接受音频输入，而视频智能接受视频输入。

正如您的问题中所提到的"；语音到文本具有增强视频模型"，这意味着它有一个设计用于转录源自视频文件的音频的模型。这意味着原始文件是视频文件，然后转换为音频文件。如本教程所示，视频在转录之前已转换为音频。

如果你想直接将音频内容转录成文本，我建议使用视频智能API。您可以按照本教程学习如何使用视频智能API转录文本。

相关内容