现在,用单词向量形成的句子的表示余弦相似性现在测量单词顺序



我知道,原始余弦相似性,当通过特定单词的频率应用于两个文档时,请勿衡量单词顺序。现在,我看到了一堆论文,将余弦的相似性应用于代表词向量形成的句子对的代表。我假设他们将每个句子的嵌入式长度矩阵嵌入到一个长的向量上,其长度为doken#x嵌入原始句子的长度。因此,"我爱你"one_answers"你爱我(归一化为"我")不会以这种应用余弦相似性的新方式产生1,而旧的方式会产生1.我是正确的吗?感谢您的启发性答案。

完全!

"我爱你"one_answers"你爱我(标准化为"我")不会以这种应用余弦相似性的新方式产生1,而旧的方式会产生1。

此修改已完成:

对句子进行了轻微的修改 表示。而不是使用文本集合中的索引单词,而是一组单词 句子对中出现的内容被用作功能集。这样做是为了减少 句子表示中的数据稀疏度

标准TF-IDF相似性 (simtfidf,向量)定义为两个向量表示两个的余弦相似性 句子。

您可以在此处阅读更多

最新更新