如何在kaldi平台中添加新词或词汇



我正在尝试创建一个ASR system,其中现有的预训练模型可用作示例。我陷入了一个困境,如何在训练好的模型中添加新单词,以便下次正确返回单词;某种机器学习概念。任何想法都会有所帮助。

您可能需要两样东西:

  1. Lexicon:试着在你的数据文件夹中找到类似lexicon.txt的东西,在其中添加你的单词和相应的电话序列,比如:

    speech s p iy ch
    the dh ax
    the dh iy
    
  2. 语言模型:在你的数据文件夹中找到类似XXX.lm的东西,在1克中添加你的单词,并附上概率,比如:

    data
    ngram 1=200
    ngram 2=4000
    ...
    1-grams
    -7.3241 the
    ...
    

在此之后,基于这两个新文件再次制作解码器HCLG.fst

注意:语言中的数字会使语音识别的结果不同,您需要选择一个合适的数字,或者使用工具包srilm根据语料库的文本生成。

最新更新