我成功安装了适用于Mac OS的Gcloud (终端使用(。我想出了如何运行正确的命令将 60 分钟的 2 人采访 MP3 文件从语音转录为文本。作业成功完成("描述"命令显示 100% 完成(。我在 Gcloud 网站、Mac 上的本地文件中或通过终端找不到文本转录文件/输出。
已尝试使用命令上的各种标志,包括启用 --user-out。没有变化。对 (3( 次尝试中的每一次使用"描述",它只是表示作业已成功完成。
我运行的最后一次尝试:
gcloud ml speech recognize-long-running 'gs://transcription-conversions/myfile.mp3' --async --language-code="en-US" --encoding="LINEAR16" --sample-rate=16000 --user-output-enabled
然后我运行它以查看工作是否正确完成。我认为确实如此:
gcloud ml speech operations describe
{
"done": true,
"metadata": {
"@type": "type.googleapis.com/google.cloud.speech.v1.LongRunningRecognizeMetadata",
"lastUpdateTime": "2019-04-23T22:48:10.075437Z",
"progressPercent": 100,
"startTime": "2019-04-23T22:45:20.132178Z"
},
"name": "12345"
}
但是,我不确定在哪里/如何获取上面显示的 12345 作业/名称的文本输出。文本成绩单在哪里?如何访问它?
我重现了这个问题,对我来说只发生在 mp3 格式上,你能将文件转换为 flac 格式 1 并在没有格式参数的情况下运行你的命令吗?
下面是一个示例:
ffmpeg -i myfile.mp3 -c:a flac myfile.flac
gcloud ml speech recognize-long-running 'gs://transcription-conversions/myfile.flac' --language-code='en-US'
目前不支持 MP3 格式,您应该遵循我们的功能请求。
如果转换为支持编码不理想,您可以使用 API 尝试 MP3 翻译,但是,无法保证质量。这就是为什么您没有收到任何输出的原因,因为目前只有 API 会接受 MP3 编码。
对于谷歌云语音转文本:
文档建议在 16000Hz 下.wav文件
16bit 16000Hz mono .wav
对我有用。
我拿起我的原始录音(或从视频中翻录(,并用一些EQ和语音限制效果(使用免费软件Audacty或Adobe Audition(进行传递,然后以上述格式save as
- 然后将其上传到gc存储,然后运行ml speech
。
要访问转录(输出(,您可以在命令末尾使用 >
运算符将其写入文件,如下所示> my-file.txt
...(见下文(
顺便说一句,您也可以使用alpha
版本的ml speech
。它接受更多有助于 AI 转录的标志。我的命令如下所示:
gcloud alpha ml speech recognize-long-running gs://my-bucket/my-audio-16bit-16k.wav --language-code=en-US --enable-automatic-punctuation --sample-rate=16000 --max-alternatives=1 --interaction-type=dictation --original-media-type=video --recording-device-type=pc --naics-code=541613 > my-transcript.txt
。你看我把输出写成.txt
以下是有关 alpha 的文档:https://cloud.google.com/sdk/gcloud/reference/alpha/ml/speech/recognize-long-running