直观理解Word2Vec变换

我对Word2Vec变换过程的理解是，在使用大量的句子语料库训练模型后，模型将学习向量空间，我们可以使用单词向量将一个包含k个单词的句子转换为一个长度为D的单个向量，其中D是维数。k字将被转换成一个k * V单热编码矩阵，其中V是词汇表的大小。然后乘以输入隐藏权值(V * D)。结果是一个k * V矩阵。如果对列中的k个元素求平均值，就可以得到长度为D的最终向量。

我的问题是，直观地说，最后一个长度为D的向量到底是什么意思。当你对k行取平均值时，会删除一些东西吗?同样，像"婴儿爱吃胡萝卜"这样的句子。还有"胡萝卜爱宝宝"。将变换成相同的向量，但两个句子却完全不同。

Word2Vec是否不将包含k个单词的句子转换为长度为d的单个向量

还有其他算法可以将多个单词的句子/文本转换为单个向量。

但是word2vec使用大量的文本集合来学习单个单词的向量。(它通过优化一些最初随机的单词向量来更好地预测附近的相邻单词。)

在最后，每个单词都有一个向量，而不是每个句子。

(当然，您可以将一堆单词向量平均起来，以获得较长单词运行的向量，对于一些简单任务来说，这是一个不错的基线方法。但这是word2vec的下游应用程序，相对粗糙。)

相关内容

最新更新

热门标签：