在没有语音注册的情况下，我如何使用microsoft语音转文本进行说话人识别(日记化)

在我的应用程序中，我需要记录人与人之间的对话，而物理工作流程中没有空间为训练识别器而对每个人的语音进行20秒的采样，也没有空间要求每个人阅读一个固定的密码短语进行训练。但据我所知，如果不这样做，就没有办法识别说话者。

有没有什么方法可以只记录，比如说，5个人在说话，并让识别器自动将返回的文本分类为属于5个不同的人中的一个，而无需事先培训？

(值得一提的是，在我的测试中，IBM Watson可以做到这一点，尽管它做得不是很准确。(

如果我理解你的问题，那么对话转录应该是你的场景的解决方案，因为如果你事先没有生成用户配置文件，它会将演讲者显示为Speaker[x]，并为每个新的演讲者迭代。

用户语音样本是可选的。没有这个输入，转录将示出不同的扬声器；扬声器1"扬声器2〃；，而不是将特定的说话者名称识别为预先登记的。

您可以开始使用实时会话转录快速启动。

Microsoft Conversation Transcription正在预览中，现在针对麦克风阵列设备。因此，输入录音应该由麦克风阵列记录。如果您的录音来自普通麦克风，它可能不起作用，您需要特殊配置。你也可以尝试批量日记，它支持离线转录，目前有2个发言人，很快就会支持2个以上的发言人，可能在本月。

相关内容

最新更新

热门标签：