我正在做一个带有语音转文本的POC。我需要识别特定的单词,如"D-STUM">(每日站立会议(。问题是,每次我告诉我的程序识别"D-STUM"时,我都会得到"命运"、"这个主题"等。
我已经 speech.microsoft.com/.../customspeech 了,我已经录制了大约 40 个人们说"D-STUM"的 wav 文件。我还创建了一个名为"trans.txt"的文件,其中包含每个文件后带有"D-STUM"一词的wav文件。喜欢这个: D_stum_1.wav D-STUM D_stum_2.wav D-STUM D_stum_3.wav D-STUM D_stum_4.wav D-STUM ...
然后,我上传了一个包含 wav 文件和 trans.txt 文件的 zip,使用这些数据训练模型,并创建了一个端点。我在软体上引用了这个端点,并启动了它。
我希望我的自定义语音转文本能够识别说"D-STUM"并将"D-STUM"显示为文本的人。自定义模型后,我从未显示过"D-STUM"。
我做错了什么吗?这是进行定制培训的正确方法吗? 40 个样本还不足以正确训练模型吗?
谢谢你的回答。
自定义语音识别有几种方法可以更好地了解特定单词:
- 通过提供音频样本和他们的转录,就像你所做的那样
- 通过提供文本样本(无音频(
根据我以前的用例,我强烈建议创建一个包含 5 到 10 个句子的训练文件,每个句子在其使用上下文中包含"D-STUM"。然后在文件中复制这些句子 10 到 20 次。
它帮助我们理解特定的单词。
此外,如果您使用">en-US"或"de-DE"作为目标语言,则可以使用发音文件,请参阅此处