直观理解Word2Vec变换



我对Word2Vec变换过程的理解是,在使用大量的句子语料库训练模型后,模型将学习向量空间,我们可以使用单词向量将一个包含k个单词的句子转换为一个长度为D的单个向量,其中D是维数。k字将被转换成一个k * V单热编码矩阵,其中V是词汇表的大小。然后乘以输入隐藏权值(V * D)。结果是一个k * V矩阵。如果对列中的k个元素求平均值,就可以得到长度为D的最终向量。

我的问题是,直观地说,最后一个长度为D的向量到底是什么意思。当你对k行取平均值时,会删除一些东西吗?同样,像"婴儿爱吃胡萝卜"这样的句子。还有"胡萝卜爱宝宝"。将变换成相同的向量,但两个句子却完全不同。

Word2Vec是否将包含k个单词的句子转换为长度为d的单个向量

还有其他算法可以将多个单词的句子/文本转换为单个向量。

但是word2vec使用大量的文本集合来学习单个单词的向量。(它通过优化一些最初随机的单词向量来更好地预测附近的相邻单词。)

在最后,每个单词都有一个向量,而不是每个句子。

(当然,您可以将一堆单词向量平均起来,以获得较长单词运行的向量,对于一些简单任务来说,这是一个不错的基线方法。但这是word2vec的下游应用程序,相对粗糙。)

最新更新