LUCENE 标准分析器连字符注意事项



在使用lucene标准分析器索引我的文档时,我得到了一个ploblem。

例如:我的文件有一个词"抄袭主义"......在这里,该分析器将其索引为"plag"和"iarism"。但我想要像"抄袭"。我必须做什么才能得到一个完整的词?

StandardAnalyzer 将 tokanization 委托给 StandardTokenizer。您可以创建自己的tokanizer以满足您的确切需求(您可以基于StandardTokenizer)。

或者,如果你愿意,你可以对 String.replace() 进行一个肮脏的黑客攻击,使用相关的正则表达式,只运行分析器。是的。丑。

最新更新