向量空间模型-查询计算的向量[00.707,0.707]



我正在读《信息检索导论》(Christopher Manning(一书,当它介绍查询"嫉妒八卦"时,我被困在了第6章,它指出相关的向量单位是[0,0.707,0.707](https://nlp.stanford.edu/IR-book/html/htmledition/queries-as-vectors-1.html(考虑到情感、嫉妒和流言蜚语。我试图通过计算tfidf来计算它,假设:-嫉妒和流言蜚语的Tf等于1-如果我们将Idf计算为log(N/df(,其中N=1(我只有1个查询,它是我的文档(,df=1表示嫉妒和八卦=>log(1(=0,则Idf总是等于0由于idf为0,因此tfidf为零。所以我决定用原始tf除以欧氏长度来计算查询向量的每个权重。在这种情况下,欧几里得长度是sqrt(1+1(=1。我无法得到它决定[00.707,0.707]是查询向量的公式。有人能帮我吗?

我还没有解决这个问题,但我认为问题可能是sqrt(1+1)sqrt(2),所以当你归一化时,每个1都变成了1/sqrt(2) = 0.707

最新更新