Apache Lucene 7.5.x中的相关性和相似性计算



Lucene 7.5.1中的TFIDFSsimilarity、DefaultSimilarity和SweetSpotStimilarity之间有什么区别?

如何在Lucene中实现BM25F?

  • TFIDF相似性-TF-IDF相似性的抽象基类。一个相当简单的tf-idf实现。精确的算法有很好的证明:TFIDF相似性

  • 默认相似性-不再是一回事。5.0中已弃用,6.0中已删除。

  • ClassicSimilarity-旧的默认相似性。TFIDF相似性的实现。增加了tf、idf、长度规范和规范编码/解码等的基线计算。

  • SweetSpotSsimilarity-TFIDF相似性的替代实现。扩展ClassicSimilarity,主要更改长度范数的计算方式。

  • BM25Similarity-当前默认的相似性实现。Okapi BM25。

至于BM25F,不知道它的实现,开箱即用。您可能需要修改BM25Similarity以满足该目的。本文:使用BlendedTermQuery的Lucene中的BM25F可能会有所帮助。

最新更新