相关性模型

相关性模型只是根据反馈文档来估计相关性反馈。在这种情况下，相关性模型获得常用词作为其反馈的概率会更高。因此，我认为相关性模型的性能与其他两个模型相比不会那么好。然而，我了解到所有这些模型都表现得很好。这是什么原因？

"In contrast, the relevance model just estimates the relevance feedback based on feedback documents. In this case, the relevance model would have a higher probability of getting common words as its feedbacks"

这是一种普遍的看法，但不一定是真的。更具体地说，回想一下相关性模型的估计方程看起来像：

P(w|R) = sum_{D in Top-K} P(w|D) prod_{t in Q} P(q|D)

它在简单的英语中的意思是——

要计算术语w在top-K文档集中的权重，请对top-K中的每个文档进行迭代，并将P(w|D)与Q与D的相似性得分相乘(这是值prod_{t in Q} P(q|D)(。现在，idf因子被隐藏在表达式P(w|D)中。

遵循标准语言模型范式(Jelinek-Mercer或Dirichlet(，这不仅仅是一个简单的最大似然估计，而是一个集合平滑版本，例如，对于Jelinek-Merer，这是：

P(w|D) = log(1+ lambda/(1-lambda) * count(w,D)/length(D) * collection_size/cf(t))

这不过是基于tf*idf的线性组合的推广——第二分量CCD_ 9具体表示反向采集频率。

因此，P(w|D)的这个表达式确保了具有较高idf值的项在相关性模型估计中倾向于获得较高的权重。除了高idf权重之外，由于P(w|D(与P(q|D(的乘积，它们还应该与查询项具有高水平的共现性。

相关内容

最新更新

热门标签：