在没有语音注册的情况下,我如何使用microsoft语音转文本进行说话人识别(日记化)



在我的应用程序中,我需要记录人与人之间的对话,而物理工作流程中没有空间为训练识别器而对每个人的语音进行20秒的采样,也没有空间要求每个人阅读一个固定的密码短语进行训练。但据我所知,如果不这样做,就没有办法识别说话者。

有没有什么方法可以只记录,比如说,5个人在说话,并让识别器自动将返回的文本分类为属于5个不同的人中的一个,而无需事先培训?

(值得一提的是,在我的测试中,IBM Watson可以做到这一点,尽管它做得不是很准确。(

如果我理解你的问题,那么对话转录应该是你的场景的解决方案,因为如果你事先没有生成用户配置文件,它会将演讲者显示为Speaker[x],并为每个新的演讲者迭代。

用户语音样本是可选的。没有这个输入,转录将示出不同的扬声器;扬声器1"扬声器2〃;,而不是将特定的说话者名称识别为预先登记的。

您可以开始使用实时会话转录快速启动。

Microsoft Conversation Transcription正在预览中,现在针对麦克风阵列设备。因此,输入录音应该由麦克风阵列记录。如果您的录音来自普通麦克风,它可能不起作用,您需要特殊配置。你也可以尝试批量日记,它支持离线转录,目前有2个发言人,很快就会支持2个以上的发言人,可能在本月。

最新更新