需要解释 Solr 的语言词干



我正在使用Solr的nutch来开发阿拉伯语文本的搜索引擎。我需要在我的阿拉伯语文本上实现一个词干分析器,在 Solr Stemmer 上工作时,我发现它提供了这两个过滤器

<filter class="solr.ArabicNormalizationFilterFactory"/>

<filter class="solr.ArabicStemFilterFactory"/>

我尝试了它们,但不明白它们的作用..所以请任何人帮我举一些例子??

并执行这两个操作:

العملات

Stemmed to عملة

البسَاتِين ، بساتينكم Stemmed to بستان

谢谢。

您可以在此处找到一些详细信息: http://lucene.apache.org/core/3_6_0/api/contrib-analyzers/org/apache/lucene/analysis/ar/ArabicStemmer.html

这说:

词干分解定义为:

  • 删除附加的定冠词、连词和介词。
  • 常见后缀的词干。

最新更新