如何在 Mac OS 终端(或通过 Gcloud Web UI)访问已完成的 gcloud ml 语音转文本操作的输出?



我成功安装了适用于Mac OS的Gcloud (终端使用(。我想出了如何运行正确的命令将 60 分钟的 2 人采访 MP3 文件从语音转录为文本。作业成功完成("描述"命令显示 100% 完成(。我在 Gcloud 网站、Mac 上的本地文件中或通过终端找不到文本转录文件/输出。

已尝试使用命令上的各种标志,包括启用 --user-out。没有变化。对 (3( 次尝试中的每一次使用"描述",它只是表示作业已成功完成。

我运行的最后一次尝试:

gcloud ml speech recognize-long-running  'gs://transcription-conversions/myfile.mp3' --async --language-code="en-US" --encoding="LINEAR16" --sample-rate=16000 --user-output-enabled

然后我运行它以查看工作是否正确完成。我认为确实如此:

gcloud ml speech operations describe  
{
  "done": true,
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.speech.v1.LongRunningRecognizeMetadata",
    "lastUpdateTime": "2019-04-23T22:48:10.075437Z",
    "progressPercent": 100,
    "startTime": "2019-04-23T22:45:20.132178Z"
  },
  "name": "12345"
}

但是,我不确定在哪里/如何获取上面显示的 12345 作业/名称的文本输出。文本成绩单在哪里?如何访问它?

我重现了这个问题,对我来说只发生在 mp3 格式上,你能将文件转换为 flac 格式 1 并在没有格式参数的情况下运行你的命令吗?

下面是一个示例:

ffmpeg -i myfile.mp3 -c:a flac myfile.flac
gcloud ml speech recognize-long-running 'gs://transcription-conversions/myfile.flac' --language-code='en-US'

目前不支持 MP3 格式,您应该遵循我们的功能请求。

如果转换为支持编码不理想,您可以使用 API 尝试 MP3 翻译,但是,无法保证质量。这就是为什么您没有收到任何输出的原因,因为目前只有 API 会接受 MP3 编码。

对于谷歌云语音转文本:

文档建议在 16000Hz 下.wav文件

16bit 16000Hz mono .wav对我有用。

我拿起我的原始录音(或从视频中翻录(,并用一些EQ和语音限制效果(使用免费软件Audacty或Adobe Audition(进行传递,然后以上述格式save as - 然后将其上传到gc存储,然后运行ml speech

要访问转录(输出(,您可以在命令末尾使用 > 运算符将其写入文件,如下所示> my-file.txt...(见下文(

顺便说一句,您也可以使用alpha版本的ml speech。它接受更多有助于 AI 转录的标志。我的命令如下所示:

gcloud alpha ml speech recognize-long-running gs://my-bucket/my-audio-16bit-16k.wav --language-code=en-US --enable-automatic-punctuation --sample-rate=16000 --max-alternatives=1 --interaction-type=dictation --original-media-type=video --recording-device-type=pc --naics-code=541613 > my-transcript.txt

。你看我把输出写成.txt

以下是有关 alpha 的文档:https://cloud.google.com/sdk/gcloud/reference/alpha/ml/speech/recognize-long-running

最新更新