Solr:集成部分匹配和完全匹配结果

考虑一个包含以下内容的汽车数据库：

奔驰C级
奔驰A级
宝马 3系
马自达 3

我有一个架构可以返回部分匹配的结果。如您所见，我将要考虑的最小字符限制为 2：

<fieldType class="solr.TextField" name="string_contains" positionIncrementGap="100">
   <analyzer type="index">
        <tokenizer class="solr.WhitespaceTokenizerFactory"/>
        <filter class="solr.StopFilterFactory" enablePositionIncrements="true" ignoreCase="true" words="stopwords.txt"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
        <filter class="solr.EdgeNGramFilterFactory" maxGramSize="15" minGramSize="2"/>
        <filter class="solr.ReverseStringFilterFactory"/>
        <filter class="solr.EdgeNGramFilterFactory" maxGramSize="15" minGramSize="2"/>
        <filter class="solr.ReverseStringFilterFactory"/>
        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
   </analyzer>
   <analyzer type="query">
        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
        <tokenizer class="solr.WhitespaceTokenizerFactory"/>
   </analyzer>
</fieldType>

因此，如果用户搜索"ercedes"，将返回两个梅赛德斯条目。如果用户搜索"C"或"3"，则不会返回任何内容，因为架构至少设置 2 个字符。

我还有以下架构，它将返回任何完全匹配：

<fieldType class="solr.TextField" name="textStemmed" omitNorms="true" positionIncrementGap="0">
      <analyzer type="index">
        <tokenizer class="solr.StandardTokenizerFactory"/>
        <filter class="solr.StopFilterFactory" enablePositionIncrements="true" ignoreCase="true" words="stopwords.txt"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.EnglishPossessiveFilterFactory"/>
        <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
        <filter class="solr.PorterStemFilterFactory"/>
      </analyzer>
      <analyzer type="query">
        <tokenizer class="solr.StandardTokenizerFactory"/>
        <filter class="solr.SynonymFilterFactory" expand="true" ignoreCase="true" synonyms="synonyms.txt"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="querystopwords.txt"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.EnglishPossessiveFilterFactory"/>
        <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
        <filter class="solr.PorterStemFilterFactory"/>
    </analyzer>

使用上述方法，搜索"C"将返回"梅赛德斯 C 类"，因为它是完全匹配的，但对于部分匹配没有任何内容。

是否有可能以某种方式拥有一个与第一个模式类似的模式，即它可以返回部分匹配项，但也可以在完全匹配时将匹配项返回到单个字符术语？

谢谢马克

你可以这样做：

声明两个(或更多(字段"carpartial"定义为string_contains，"carexact"定义为textStemmed。
使用复制字段将原始字段复制到这些附加字段中
您可以使用 Edismax 处理程序来查询这两个字段，但一个字段比另一个字段更提升： qf=string_contains^4 textStemmed^6

您可能想要调整分析链，但您会看到它是如何工作的，使用相同字段的不同变体(当然，您可以添加更多(，并具有不同的提升。

相关内容

最新更新

热门标签：