有没有一种方法可以保持Watson语音识别的会话状态，以避免干扰说话人识别

我正在使用Watson执行语音到文本，包括说话人识别(日记化(。质量有时好，有时不好，但有一个明显的缺陷：我需要以块为单位上传音频，而Watson在块之间没有任何上下文，所以扬声器标识在第一个块之后被打乱。

假设我录制了一个小时的对话，但我想分5分钟上传，这样我就不必等到整个对话结束后才能开始处理。我发现，在第一个组块中，说话者A、B、C按照这个顺序说话，并被识别为说话者1、2和3。

但在第二个组块中，可能恰好是同一个人按照C、A、B的顺序说话。现在他们被识别为说话者1、2和3，这与第一个组块完全不同，无法正确分配他们。

那么，有没有办法告诉Watson，一系列音频块应该保持相同的上下文或状态，这样就不会发生这种情况？

您是否考虑过使用websockets API-https://cloud.ibm.com/apidocs/speech-to-text?code=node#recognize-音频网络套接字-interimResults设置为true。

相关内容