如何使用特定领域短语的词典/模型调整检索和排名排名



我们正在尝试将短语组合在一起以提高结果。

例如,如果用户问一个问题,比如"我什么时候必须更换空调的过滤器?"并使用特定领域的短语,比如"空调",R&R返回一些包含术语"空气"而不包含"空调"的答案,或者返回包含其他术语(如安全气囊或空气滤清器)的答案。

这可以通过使用原始Solr实例并在引号之间设置短语来实现。因此,Solr查询如下所示:

...     
"debug": {
    "rawquerystring": "When do I have to change the filter of my "air conditioning" ?",
    "querystring": "When do I have to change the filter of my "air conditioning" ?",
    "parsedquery": "text:when text:do text:i text:have text:to text:change text:the text:filter text:of text:my PhraseQuery(text:"air conditioning") text:?",
    "parsedquery_toString": "text:when text:do text:i text:have text:to text:change text:the text:filter text:of text:my text:"air conditioning" text:?",      
...

然而,R&R引导状态:

该语法与标准Solr语法不同,如下所示:

您可以搜索单个术语或短语。你不需要用双引号将短语括起来,就像用Solr一样,但是可以在查询中包括短语,并且这些短语由ranker模型。

我们找不到关于上述声明的更多细节。

但是,正如我们所理解的,排序者应该识别短语。如果是这样的话,我们想知道是否有一种方法可以设置一本短语词典来调整排名?或者,我们可以建立自己的法律短语模型吗?实现这一目标有哪些选择?

感谢

目前RnR不支持严格的短语查询,尽管有一些功能会考虑术语排序和相邻术语。我们正在开发一个新版本的服务,在该服务中,用户将能够使用完整的常规solr查询语法(包括指定短语)进行文档检索。

最新更新