为什么 whoosh 搜索在 sklearn 中的表现比 tfidfvectorizer 差?

我实现了一个基本的(几乎所有默认选项)基于TF-IDF矢量化器(sklearn)的搜索程序，以根据用户查询搜索一些文档。

我也尝试在python中使用Whoosh实现相同的功能。虽然独立的 tfidfvectorizer 实现为同一查询返回许多直观的结果，但 whoosh 查询只返回一个。(当我尝试在更多字段中搜索并归结为 0 个结果时，这也消失了)。我想知道我在这里做错了什么？

我尝试根据嗖嗖声文档适当地设置嗖嗖搜索器中的分数。with myindex.searcher(weighting=scoring.TF_IDF()) as s:

有了这个，我认为它应该给出与 TF-IDF 矢量化器的 sklearn 实现有些相似的结果，但只返回一个命中。我如何获得类似的结果，即在 whoosh 中使用类似于 sklearns TF-IDF 矢量化器实现的东西。

另外，当我使用多个字段进行搜索时MultifieldParser(["title", "content", "tags", "categories"], ix.schema)与只有一个字段"内容"相反，结果是没有命中。

图式：

schema = Schema(id = NUMERIC,
title = TEXT(field_boost=2.0, stored=True, analyzer = StandardAnalyzer(minsize = 1)),              
content = TEXT(stored=False, analyzer = StemmingAnalyzer(minsize = 1)),
permalink = ID(stored=True),
tags = KEYWORD(field_boost=2.0,lowercase=True, commas=True, scorable=True, stored = True),
categories = KEYWORD(field_boost=2.0,lowercase=True, commas=True, scorable=True, stored = True),
pub_date = DATETIME(stored = True),
creator = TEXT(stored=False)
)

搜索：

writer = ix.writer()
for i in range(len(df)):
writer.add_document(id = df["ID"][i], title = df["Title"][i],  content=df["Content"][i],
permalink = df["Permalink"][i], tags = df["Tag"][i], categories = df["Category"][i],
pub_date = df["PubDate"][i], creator = df["Creator"][i])
writer.commit()
with ix.searcher(weighting=scoring.TF_IDF()) as searcher:
parser = MultifieldParser(["title", "content", "tags", "categories"], ix.schema)
query_string = sys.argv[2]
myquery = parser.parse(query_string)
results = searcher.search(myquery, limit = 10, terms = True)
print(len(results))
for i in range(results.scored_length()):
print(results[i])
print()
print("n")

该代码确实有效，并且还可以获取结果。我面临的唯一问题是，与 TF-IDF 实现相比，它们似乎缺乏，并且在大多数情况下返回的结果也较少(问题不在于 whoosh 搜索中的限制属性)。我想知道如何在 whoosh 中获得更好的结果或结果评分，以及为什么它返回的结果比正常实现少。

查询"如何编码"的输出示例 TF-IDF (sklearn)：

30 Tips to Become Super Effective Software Developers
(Cosine Similarity of 0.3783876779183675 ):
Automation and Continuous Delivery are the bedrock of DevOps
(Cosine Similarity of 0.1476918570123896 ):
Practical Implementation of DevOps Step by Step
(Cosine Similarity of 0.1469115686911894 ):
10 Software Development Frustrations & What You Can Do To Avoid Them!
(Cosine Similarity of 0.13241987064219532 ):

WHOOSH(仅在内容字段中搜索时，否则返回 0 次命中)：

<Hit {'title': 'Ultimate List of 110 Must Read Software Development Books'}>

编辑：我刚刚再次运行代码，发现如果我从查询"如何编码？"中删除"？"并仅在"标题"和"内容"中搜索，它会返回相当多的结果，它们看起来也更好。尽管一旦我在要搜索的字段中包含"标签"和"类别"，结果就会变为 0。为什么？

？被视为通配符。我现在正在玩嗖嗖声，并注意到：

query = QueryParser("content", ix.schema).parse("one")

我得到：

<Top 1 Results for Term('content', 'one') runtime=0.0006002392619848251>

而如果我搜索一个？

query = QueryParser("content", ix.schema).parse("one?")

我得到：

<Top 0 Results for Wildcard('content', 'one?') runtime=0.0002482738345861435>

正如您在第二个示例中所看到的，返回的对象是通配符。在此处阅读更多内容： https://whoosh.readthedocs.io/en/latest/querylang.html#inexact-terms

相关内容

最新更新

热门标签：