我正在使用Watson执行语音到文本,包括说话人识别(日记化(。质量有时好,有时不好,但有一个明显的缺陷:我需要以块为单位上传音频,而Watson在块之间没有任何上下文,所以扬声器标识在第一个块之后被打乱。
假设我录制了一个小时的对话,但我想分5分钟上传,这样我就不必等到整个对话结束后才能开始处理。我发现,在第一个组块中,说话者A、B、C按照这个顺序说话,并被识别为说话者1、2和3。
但在第二个组块中,可能恰好是同一个人按照C、A、B的顺序说话。现在他们被识别为说话者1、2和3,这与第一个组块完全不同,无法正确分配他们。
那么,有没有办法告诉Watson,一系列音频块应该保持相同的上下文或状态,这样就不会发生这种情况?
您是否考虑过使用websockets API-https://cloud.ibm.com/apidocs/speech-to-text?code=node#recognize-音频网络套接字-interimResults
设置为true
。