语音到文本和视频智能Speech_TRANSSCRIPTION如何相关



我的目标是使用语音到文本模型处理几个视频。

令人困惑的是,谷歌有两款产品似乎做着同样的事情。

这些产品之间的主要区别是什么?

  1. 谷歌云语音到文本:https://cloud.google.com/speech-to-text/docs/basics

    • 语音到文本有一个";增强视频";用于解释音频的模型
  2. 谷歌视频智能:https://cloud.google.com/video-intelligence/docs/feature-speech-transcription

    • VI可以选择请求SPEECH_TRANSCRIPTION功能

两者之间的主要区别在于使用的输入。语音到文本API只接受音频输入,而视频智能接受视频输入。

正如您的问题中所提到的";语音到文本具有增强视频模型",这意味着它有一个设计用于转录源自视频文件的音频的模型。这意味着原始文件是视频文件,然后转换为音频文件。如本教程所示,视频在转录之前已转换为音频。

如果你想直接将音频内容转录成文本,我建议使用视频智能API。您可以按照本教程学习如何使用视频智能API转录文本。

相关内容

  • 没有找到相关文章

最新更新