我想通过 Google Cloud 文本转语音 API 使用 SSML 标记来请求这些标记在音频流中的计时。这些时间戳是必要的,以便为用户提供效果、单词/部分突出显示和反馈的提示。
我发现这个问题是相关的,尽管这个问题指的是每个单词的时间戳而不是 SSML <mark>
标签。
以下 API 请求返回 OK,但显示缺少请求的标记数据。这是使用Cloud Text-to-Speech API v1
.
{
"voice": {
"languageCode": "en-US"
},
"input": {
"ssml": "<speak>First, <mark name="a"/> second, <mark name="b"/> third.</speak>"
},
"audioConfig": {
"audioEncoding": "mp3"
}
}
响应:
{
"audioContent":"//NExAAAAANIAAAAABcFAThYGJqMWA..."
}
它仅提供合成的音频,没有任何上下文信息。
我是否忽略了一个 API 请求,它可以公开有关这些标记的信息,例如 IBM Watson 和 Amazon Polly 的情况?
在撰写本文时,时间点数据可在 Google Cloud 文本到语音转换的v1beta1
版本中获得。
除了默认访问权限之外,我不需要登录任何额外的开发人员计划即可访问测试版。
例如,在Python中导入来自:
from google.cloud import texttospeech as tts
自:
from google.cloud import texttospeech_v1beta1 as tts
很好,很简单。
我需要修改发送合成请求的默认方式以包含enable_time_pointing
标志。
我发现,在这里浏览机器可读的 API 描述和阅读我已经下载的 Python 库代码。
值得庆幸的是,正式版中的源代码还包括v1beta
版 - 谢谢谷歌!
我在下面放了一个可运行的示例。运行此命令需要与常规文本转语音示例相同的身份验证和设置,可以通过遵循官方文档来获取。
这是它为我所做的(为了可读性而略有格式(:
$ python tools/try-marks.py
Marks content written to file: .../demo.json
Audio content written to file: .../demo.mp3
$ cat demo.json
[
{"sec": 0.4300000071525574, "name": "here"},
{"sec": 0.9234582781791687, "name": "there"}
]
下面是示例:
import json
from pathlib import Path
from google.cloud import texttospeech_v1beta1 as tts
def go_ssml(basename: Path, ssml):
client = tts.TextToSpeechClient()
voice = tts.VoiceSelectionParams(
language_code="en-AU",
name="en-AU-Wavenet-B",
ssml_gender=tts.SsmlVoiceGender.MALE,
)
response = client.synthesize_speech(
request=tts.SynthesizeSpeechRequest(
input=tts.SynthesisInput(ssml=ssml),
voice=voice,
audio_config=tts.AudioConfig(audio_encoding=tts.AudioEncoding.MP3),
enable_time_pointing=[
tts.SynthesizeSpeechRequest.TimepointType.SSML_MARK]
)
)
# cheesy conversion of array of Timepoint proto.Message objects into plain-old data
marks = [dict(sec=t.time_seconds, name=t.mark_name)
for t in response.timepoints]
name = basename.with_suffix('.json')
with name.open('w') as out:
json.dump(marks, out)
print(f'Marks content written to file: {name}')
name = basename.with_suffix('.mp3')
with name.open('wb') as out:
out.write(response.audio_content)
print(f'Audio content written to file: {name}')
go_ssml(Path.cwd() / 'demo', """
<speak>
Go from <mark name="here"/> here, to <mark name="there"/> there!
</speak>
""")
看起来这在 Cloud Text-to-Speech API v1beta1
中受支持:https://cloud.google.com/text-to-speech/docs/reference/rest/v1beta1/text/synthesize#TimepointType
您可以使用https://texttospeech.googleapis.com/v1beta1/text:synthesize
.将TimepointType
设置为 SSML_MARK
。如果未设置此字段,则默认情况下不返回时间点。