相关性模型只是根据反馈文档来估计相关性反馈。在这种情况下,相关性模型获得常用词作为其反馈的概率会更高。因此,我认为相关性模型的性能与其他两个模型相比不会那么好。然而,我了解到所有这些模型都表现得很好。这是什么原因?
"In contrast, the relevance model just estimates the relevance feedback based on feedback documents. In this case, the relevance model would have a higher probability of getting common words as its feedbacks"
这是一种普遍的看法,但不一定是真的。更具体地说,回想一下相关性模型的估计方程看起来像:
P(w|R) = sum_{D in Top-K} P(w|D) prod_{t in Q} P(q|D)
它在简单的英语中的意思是——
要计算术语w
在top-K文档集中的权重,请对top-K中的每个文档进行迭代,并将P(w|D)
与Q与D的相似性得分相乘(这是值prod_{t in Q} P(q|D)
(。现在,idf
因子被隐藏在表达式P(w|D)
中。
遵循标准语言模型范式(Jelinek-Mercer或Dirichlet(,这不仅仅是一个简单的最大似然估计,而是一个集合平滑版本,例如,对于Jelinek-Merer,这是:
P(w|D) = log(1+ lambda/(1-lambda) * count(w,D)/length(D) * collection_size/cf(t))
这不过是基于tf*idf的线性组合的推广——第二分量CCD_ 9具体表示反向采集频率。
因此,P(w|D)
的这个表达式确保了具有较高idf值的项在相关性模型估计中倾向于获得较高的权重。除了高idf权重之外,由于P(w|D(与P(q|D(的乘积,它们还应该与查询项具有高水平的共现性。