将说话者注释(比如id、name)添加到云语音到文本api中,并将其包含在云语音到文字api生成的输出json中



谷歌云平台的云语音到文本api将多个扬声器的音频转换为文本。它返回一个JSON输出,其中包括谁在什么时候说了什么。但说话者识别(世界卫生组织(是匿名的。有没有一种方法可以注释或给出关于说话者的输入(比如id、name(,并将其包含在api生成的输出JSON中?

根据谷歌文档,没有办法将说话者信息输入到云语音到文本api。

如您所知,Speaker diarization函数仅通过speakerTag值处的数字来区分Speaker。

"words": [
{
"startTime": "0s",
"endTime": "1.100s",
"word": "hi",
"speakerTag": 2
},
{
"startTime": "1.100s",
"endTime": "2s",
"word": "I'd",
"speakerTag": 2
}

我认为唯一可以解决的方法是手动修改JSON输出的Speakertag值。

相关内容

  • 没有找到相关文章

最新更新