Apache Lucene中的单词关联搜索



我需要将一个共同主题下的数学术语关联起来。例如,角,余弦,tan等,应该与三角学有关。因此,当用户搜索角度、三角形等时,搜索结果也应该与三角函数相关。谁能提供关于如何在Apache Lucene做到这一点的线索?

有一个分类api,它包括 k近邻朴素贝叶斯模型。

你将首先对你的训练集使用train()方法。一旦分类器训练好,使用assignClass()方法对给定字符串进行分类。

对于训练集,您可以为给定的类使用维基百科页面。

在您尝试了这两个模型之后,您可以使用Classifier接口来构建一个竞争模型。

如果你已经知道这些关联,你可以将它们添加到特定术语的索引中,即将'cos'索引为'cos', '三角学'。

如果你知道关联,你可以索引父项和所有兄弟项-即索引'cos'作为'三角学','cos', 'sin',等等。

除了@Josh S。你也可以采用一种更直接的方法,生成你自己的同义词词典,例如,参见使用Solr?

最新更新