如何在Microsoft认知服务中训练自定义语音模型语音转文本

我正在做一个带有语音转文本的POC。我需要识别特定的单词，如"D-STUM">(每日站立会议(。问题是，每次我告诉我的程序识别"D-STUM"时，我都会得到"命运"、"这个主题"等。

我已经 speech.microsoft.com/.../customspeech 了，我已经录制了大约 40 个人们说"D-STUM"的 wav 文件。我还创建了一个名为"trans.txt"的文件，其中包含每个文件后带有"D-STUM"一词的wav文件。喜欢这个： D_stum_1.wav D-STUM D_stum_2.wav D-STUM D_stum_3.wav D-STUM D_stum_4.wav D-STUM ...

然后，我上传了一个包含 wav 文件和 trans.txt 文件的 zip，使用这些数据训练模型，并创建了一个端点。我在软体上引用了这个端点，并启动了它。

我希望我的自定义语音转文本能够识别说"D-STUM"并将"D-STUM"显示为文本的人。自定义模型后，我从未显示过"D-STUM"。

我做错了什么吗？这是进行定制培训的正确方法吗？ 40 个样本还不足以正确训练模型吗？

谢谢你的回答。

自定义语音识别有几种方法可以更好地了解特定单词：

通过提供音频样本和他们的转录，就像你所做的那样
通过提供文本样本(无音频(

根据我以前的用例，我强烈建议创建一个包含 5 到 10 个句子的训练文件，每个句子在其使用上下文中包含"D-STUM"。然后在文件中复制这些句子 10 到 20 次。

它帮助我们理解特定的单词。

此外，如果您使用">

en-US"或"de-DE"作为目标语言，则可以使用发音文件，请参阅此处

相关内容

最新更新

热门标签：

如何在Microsoft认知服务中训练自定义语音模型 语音转文本

相关内容

最新更新

热门标签：

如何在Microsoft认知服务中训练自定义语音模型语音转文本