给定一个查询,谷歌如何确定要显示哪些文档



我对搜索的复杂性感到好奇。据我所知,tf idf用于评估语料库中文档中单词的重要性。我也知道页面排名算法通过使用网页被视为启发式的概率来对网页的相对重要性进行排名。然而,当给出一个特定的查询时,我不确定这两者是如何相互作用的。

直觉上,我认为语言模型将用于对文档进行排序,这与tf-idf有关。但是Page Rank算法与文档检索有什么关系呢?

排名和检索是搜索引擎的独立功能。

检索组件的目的是决定哪些文档值得进行排名。排名组件的目的是决定哪些文档与查询最相关。页面排名在排名阶段应用,作为确定查询是否相关的因素之一。这是因为网络搜索引擎的上下文是你通常希望搜索其他人也觉得有用的网页。

你也可以使用页面排名来决定是否对文档进行排名,但我相信谷歌的方法侧重于提供更强或更弱的页面排名(基于传入和传出链接以及这些链接的强度),而不是过滤。

就回答标题问题而言
这很复杂,我不为他们工作,所以这主要只是猜测,但我相信他们的系统是围绕几个基本概念构建的。

  1. 查询是否正确
    拼写检查,查询建议
  2. 此页面上的内容与查询相关吗
    tf idf和其他**,短语/邻近搜索
  3. 这个页面有很高的声誉吗
    页面排名,来自谷歌分析的反馈
  4. 指向此页面的链接与查询中的内容匹配吗
    链接分析
  5. 此人(或喜欢他们的人)想查看此页面上的内容吗
    个性化、本地化等
  6. 一个网站已经有太多结果了吗
    多样化、单一化
  7. 用户所说的这个查询是什么意思
    相关性反馈、词干处理、查询扩展)

我相信还有更多,但这只是我的想法。

**信息检索有很多不同的方法。如果你已经知道TF-IDF,那么BM25将是一个很好的选择。

注意:如果您有不同的搜索上下文,这些方法可能不会很好地工作。有些类型的搜索更适合不同的模型。例如,如果您的数据是根据模式构建的,那么您最好使用数据库。

相关内容

  • 没有找到相关文章

最新更新