我的目标是使用语音到文本模型处理几个视频。
令人困惑的是,谷歌有两款产品似乎做着同样的事情。
这些产品之间的主要区别是什么?
-
谷歌云语音到文本:https://cloud.google.com/speech-to-text/docs/basics
- 语音到文本有一个";增强视频";用于解释音频的模型
-
谷歌视频智能:https://cloud.google.com/video-intelligence/docs/feature-speech-transcription
- VI可以选择请求
SPEECH_TRANSCRIPTION
功能
- VI可以选择请求
两者之间的主要区别在于使用的输入。语音到文本API只接受音频输入,而视频智能接受视频输入。
正如您的问题中所提到的";语音到文本具有增强视频模型",这意味着它有一个设计用于转录源自视频文件的音频的模型。这意味着原始文件是视频文件,然后转换为音频文件。如本教程所示,视频在转录之前已转换为音频。
如果你想直接将音频内容转录成文本,我建议使用视频智能API。您可以按照本教程学习如何使用视频智能API转录文本。