我正在使用Lucene。例如,当我尝试索引以下文本时:"在de 类别T zijn tijdelijke borden (zwarte test/symbolen op ele achtergrond)中,opigenen die niet In permanent univerering beschikbaar zijn。"
这是关于粗体文本,所有内容都很好地索引,但T将被忽略。
有人知道这个问题吗?我使用的语法如下:
doc.Add(new Field("text", text, Field.Store.NO, Field.Index.TOKENIZED));
"T"是标准分析器中默认的停止字。您可以在创建分析器时提供自己的停止词列表。
创建一个像这样的分析器:
StandardAnalyzer standardAnalyzer = new StandardAnalyzer(new string[]{"an", "a", /*other stopwords*/});
并在索引和搜索时使用