相关性模型



相关性模型只是根据反馈文档来估计相关性反馈。在这种情况下,相关性模型获得常用词作为其反馈的概率会更高。因此,我认为相关性模型的性能与其他两个模型相比不会那么好。然而,我了解到所有这些模型都表现得很好。这是什么原因?

"In contrast, the relevance model just estimates the relevance feedback based on feedback documents. In this case, the relevance model would have a higher probability of getting common words as its feedbacks"

这是一种普遍的看法,但不一定是真的。更具体地说,回想一下相关性模型的估计方程看起来像:

P(w|R) = sum_{D in Top-K} P(w|D) prod_{t in Q} P(q|D)

它在简单的英语中的意思是——

要计算术语w在top-K文档集中的权重,请对top-K中的每个文档进行迭代,并将P(w|D)与Q与D的相似性得分相乘(这是值prod_{t in Q} P(q|D)(。现在,idf因子被隐藏在表达式P(w|D)中。

遵循标准语言模型范式(Jelinek-Mercer或Dirichlet(,这不仅仅是一个简单的最大似然估计,而是一个集合平滑版本,例如,对于Jelinek-Merer,这是:

P(w|D) = log(1+ lambda/(1-lambda) * count(w,D)/length(D) * collection_size/cf(t))

这不过是基于tf*idf的线性组合的推广——第二分量CCD_ 9具体表示反向采集频率。

因此,P(w|D)的这个表达式确保了具有较高idf值的项在相关性模型估计中倾向于获得较高的权重。除了高idf权重之外,由于P(w|D(与P(q|D(的乘积,它们还应该与查询项具有高水平的共现性。

相关内容

  • 没有找到相关文章

最新更新