谷歌云平台的云语音到文本api将多个扬声器的音频转换为文本。它返回一个JSON输出,其中包括谁在什么时候说了什么。但说话者识别(世界卫生组织(是匿名的。有没有一种方法可以注释或给出关于说话者的输入(比如id、name(,并将其包含在api生成的输出JSON中?
根据谷歌文档,没有办法将说话者信息输入到云语音到文本api。
如您所知,Speaker diarization函数仅通过speakerTag
值处的数字来区分Speaker。
"words": [
{
"startTime": "0s",
"endTime": "1.100s",
"word": "hi",
"speakerTag": 2
},
{
"startTime": "1.100s",
"endTime": "2s",
"word": "I'd",
"speakerTag": 2
}
我认为唯一可以解决的方法是手动修改JSON输出的Speakertag
值。