使用Lucene/SOLR索引查找类似的结果



我们有一个应用程序,用于标记大型MS Word文档语料库中的用户选择。我们用一个或多个关键字标记来标记这些选择,通常还有一个标题标记。我们希望添加一个功能,在该功能中,所选文本将被立即分析,并向标记者提供最可能的关键字和标题标签列表(基于现有的标记文本选择)

我们使用的是SOLR指数。有人告诉我,我们可以简单地将所选文本作为查询本身发出,以返回类似的选择。然而,所选文本的长度可以在200到6000字之间。一个6000字的查询可能是内存使用方面的问题!

我认为我们可以做一些非常激进的停止词删除,以显著减少查询中的单词数量,只留下非常有意义的单词。在过去的10年里,我们一直在使用这个语料库,我们非常熟悉所用的主题和词汇,所以这对我们来说很容易做到。但问题是,我们也使用相同的索引来允许普通用户搜索索引,如果我们删除了太多的常用词,那么他们的正常查询可能无法正常工作(尤其是短语查询)。

我们还希望将包含查询文本的结果提升到较小的范围内,而不仅仅是在整个文档中任意分布。

另一个问题是我们允许嵌套选择。外部选择可能更一般,长度约为5000字,而内部选择则更短,主题更具体。然而,由于两个选择都包含相同的文本,当外部选择可能与不太相关时,SOLR对它们进行了高度排序

在过去的几天里,我一直在浏览SOLR查询解析器文档,看起来这应该是可行的,但我仍然不确定我需要做什么才能实现这一点。任何建议都将不胜感激。

Solr拥有多核设施。因此,如果你可以为你的内部工作提供一个核心,并将另一个核心公开,这可能会解决你的问题。你可以参考本节http://wiki.apache.org/solr/Solr.xml%20(通过%204.x支持%20)或者您可以参考Solr参考手册中的Solr核心和Solr.xml部分。

相关内容

  • 没有找到相关文章

最新更新