现在，用单词向量形成的句子的表示余弦相似性现在测量单词顺序

我知道，原始余弦相似性，当通过特定单词的频率应用于两个文档时，请勿衡量单词顺序。现在，我看到了一堆论文，将余弦的相似性应用于代表词向量形成的句子对的代表。我假设他们将每个句子的嵌入式长度矩阵嵌入到一个长的向量上，其长度为doken＃x嵌入原始句子的长度。因此，"我爱你"one_answers"你爱我（归一化为"我"）不会以这种应用余弦相似性的新方式产生1，而旧的方式会产生1.我是正确的吗？感谢您的启发性答案。

完全！

"我爱你"one_answers"你爱我（标准化为"我"）不会以这种应用余弦相似性的新方式产生1，而旧的方式会产生1。
。

此修改已完成：

对句子进行了轻微的修改表示。而不是使用文本集合中的索引单词，而是一组单词句子对中出现的内容被用作功能集。这样做是为了减少句子表示中的数据稀疏度

标准TF-IDF相似性（simtfidf，向量）定义为两个向量表示两个的余弦相似性句子。

您可以在此处阅读更多

相关内容

最新更新

热门标签：