使用Whoosh Python搜索库进行文档比较/相似性



如何使用Whoosh获得文档的相似性度量?

我想创建一个"相关"功能,对与文档高度相似的其他先前索引的文档进行排名。

我是否将文档作为长查询字符串输入?我是否将文档添加到索引中,并以某种方式从中提取相似性查询结果?

感谢

Whoosh搜索器类有一个名为"more_like()"的方法。

它允许您将文档与其他索引文档进行比较和索引,并返回与给定文档类似的文档列表。

点击搜索的班级可以给出排名和分数。

更新链接:

more_like():https://whoosh.readthedocs.io/en/latest/api/searching.html#whoosh.searching.Searcher.more_like
whoosh.searching.Hit:https://whoosh.readthedocs.io/en/latest/api/searching.html#whoosh.searching.Hit

最新更新