我正在为印度口音的人进行语音识别。目前我使用的是Kaldi ASR的在线nnet2解码工具。当说话者有良好的英语发音时,这个工具就能很好地工作。但是,当说话者的口音与美国口音不同时,它就失败了。
那么,有谁能建议一下使用Kaldi ASR对声学或神经网络模型的扬声器进行适配的程序吗?
有很多方法可以做到这一点。
1 -如果你只是在谈论口音(这意味着,没有新单词,标准语法)->那么你应该主要与模型的声学部分。获得尽可能多的音频&转录数据,你可以(数百小时),所以你可以更新模型的h部分。
2 -如果你在谈论更复杂的东西,你应该考虑更新词典(添加单词)&语法(第一)(包括我的第一点)。
你可以尝试从AMI模型和它的论文开始,它包含在Kaldi的例子中。参见Kaldi