在句子级别实现预先训练的单词嵌入

我正在尝试进行文本分类，并在句子级别使用预先训练的手套单词嵌入。我目前正在使用非常幼稚的方法，即平均单词向量来表示句子。

问题是如果句子中没有出现预先训练的单词怎么办，如果发生这种情况，我该怎么办？只是忽略这句话还是随机给这句话向量分配一些值？我找不到处理这个问题的参考文献，大多数论文只是说他们使用平均预训练的单词嵌入来生成句子嵌入。

如果一个句子没有你一无所知的单词，任何分类尝试都将是随机猜测。

这种无信息句子不可能改善你的分类器，所以最好省略它们，而不是包含完全随机的特征。

(对于具有子词素的语言，有一些词嵌入技术可以比随机词向量更好地猜测以前未知的单词。例如，请参阅Facebook的"FastText"工具。但是，除非你的大量文本被未知单词所主导，否则你可能会推迟对这些技术的研究，直到验证你的一般方法是否适用于更简单的文本之后。

相关内容