webSolr 搜索错误的拼写

我已经将Solr与My eComemrce Web应用程序集成在一起。我正在将产品标题和产品的许多其他字段索引到 Solr。现在，我已经将BLÅBÆRSOMMEREN索引为产品标题/名称。我也为标题字段添加了EdgeNGram。因为 EdgeNGram 如果我搜索任何令牌，我就会得到结果。由于拼写检查，如果我搜索错误的拼写，例如：BLÅBÆRISOMMEREN，我得到了结果。但是如果我搜索 BLÅBÆRI，我没有得到任何结果，因为没有任何令牌。

我想要结果中具有 BLÅBÆR 的产品，因为该令牌存在。任何其他错误的拼写搜索也是如此。

我怎样才能做到这一点？任何帮助将不胜感激！

谢谢。

听起来您可能为索引和查询配置了不同的 Solr 标记化。

因此，在您的示例中，索引中可能会出现以下术语：

乙
提单
布拉
布拉布
布拉巴
布拉拜尔
布拉巴斯

但是，由于您的查询词未被处理为 ngram，因此您只是搜索

布拉巴里

它不会出现在您的索引字词中。

这是使用 ngrams 时的常见做法，但听起来在您的用例中您希望在结果中返回部分匹配项。

检查您的 Solr 模式，以确保您为查询时间配置了匹配的 EdgeNGram 过滤器，就像您为索引时间配置的过滤器一样，例如

<fieldType name="text_general_edge_ngram" class="solr.TextField" positionIncrementGap="100">
   <analyzer type="index">
      <tokenizer class="solr.LowerCaseTokenizerFactory"/>
      <filter class="solr.EdgeNGramFilterFactory" minGramSize="2" maxGramSize="15" side="front"/>
   </analyzer>
   <analyzer type="query">
      <tokenizer class="solr.LowerCaseTokenizerFactory"/>
      <filter class="solr.EdgeNGramFilterFactory" minGramSize="2" maxGramSize="15" side="front"/>
   </analyzer>
</fieldType>

不过，请确保您按score排序，因为此策略很可能会给您带来许多误报！

对于拼写错误的单词，可以使用模糊查询（允许与查询词的编辑距离为 ~1 或 ~2 的索引词进行匹配）。

使用您的示例，BLÅBÆRISOMMEREN 是与索引词的编辑距离 1（一个字符差异）。

因此，查询q=title:BLÅBÆRISOMMEREN~1将匹配您的标题术语，但 BLÅBÆRI 不会（没有上一个答案中的 ngram 方法）。

如果您尝试构建自动建议，您还可以研究 Solr 的建议器组件，因为它也可以处理模糊建议，例如：（BLÅBÆRI -> BLÅBÆRSOMMEREN），并且通常比传统查询响应更快。

相关内容

最新更新

热门标签：