在句子级别实现预先训练的单词嵌入



我正在尝试进行文本分类,并在句子级别使用预先训练的手套单词嵌入。我目前正在使用非常幼稚的方法,即平均单词向量来表示句子。

问题是如果句子中没有出现预先训练的单词怎么办,如果发生这种情况,我该怎么办?只是忽略这句话还是随机给这句话向量分配一些值?我找不到处理这个问题的参考文献,大多数论文只是说他们使用平均预训练的单词嵌入来生成句子嵌入。

如果一个句子没有你一无所知的单词,任何分类尝试都将是随机猜测。

这种无信息句子不可能改善你的分类器,所以最好省略它们,而不是包含完全随机的特征。

(对于具有子词素的语言,有一些词嵌入技术可以比随机词向量更好地猜测以前未知的单词。例如,请参阅Facebook的"FastText"工具。但是,除非你的大量文本被未知单词所主导,否则你可能会推迟对这些技术的研究,直到验证你的一般方法是否适用于更简单的文本之后。

最新更新