用中新世索引多语言字段



我有多语言文档记录要用lucene进行索引。也就是说,每个文档记录都使用一种语言,但存在不同的语言记录。我打算把它们放在一个索引中,这样我就可以用多语言查询进行搜索。目前,文档记录在一个数据输入文件中,如下所示:

<DOCID>1<DOCID>
<LANGUAGE>CHINESE<LANGUAGE>
<TEXT>中文内容<TEXT>
<DOCID>2<DOCID>
<LANGUAGE>ENGLISH<LANGUAGE>
<TEXT>Some English text<TEXT>

我的问题是:有没有一种方法可以用一个索引编写器对同一个字段使用不同的分析器?还是应该将文档记录拆分为两个不同语言的输入文档,以应用不同的索引编写器,但附加到同一索引?

提前感谢您的建议!

当调用IndexWriter.addDocument.时,您可以提供要用于文档的分析器

然而,将不同的语言文本拆分到不同的字段可能会让您受益更多。这将防止出现错误的语言,并允许您在检测到正确的语言后创建一个AnalyzerWrapper来分配适当的分析器。

最新更新