Keras中使用的经过训练的单词嵌入(Gensim)中的未知单词



我正在使用GENSIM(word2vec(训练单词嵌入,并在KERAS中的神经网络中使用训练后的模型。当我有一个未知的(词汇表外的(单词时,就会出现问题,所以神经网络不再工作,因为它找不到特定单词的权重。我认为解决这个问题的一种方法是在预训练的单词嵌入中添加一个新单词(<unk>(,使用零权重(或者可能是随机权重?哪一个更好?(这种方法好吗?此外,对于这个单词嵌入,权重在这个神经网络中是不可训练的。

最典型的是忽略未知单词。(用插入词或原始向量替换它们会更扭曲。(

您也可以考虑训练FastText模式,该模式将始终根据训练期间创建的字符-语法向量来合成词汇表外单词的一些猜测向量。(这些合成向量通常总比没有好,尤其是当一个单词的词根与相关单词重叠时——但通过所有相关单词用法的例子获得更多的训练数据会更好,简单地忽略罕见的未知单词也没那么糟糕。(

最新更新