是否可以在Solr返回的文档中获取关键字



Solr提供了一种基于关键字搜索文档的简单方法,但我想知道它是否能够自己返回关键字?

例如,我可能想搜索上周Joe Blogs创建的所有文档,然后通过其中的关键字了解这些文档的内容。还是我必须自己计算出关键词并将它们保存在字段中?

假设关键字是指 Solr 在解析特定字段时生成的标记,您可能需要查看术语向量组件的文档和示例。

在实现它之前,只需检查 Solr (4+) 管理 WebUI 的分析屏幕,因为它有一个部分显示特定字段实际生成的术语/令牌。

如果这些不是您尝试生成的关键字,则可能需要一个单独的字段来生成这些关键字,可能是通过在索引管道中使用 UpdateRequestProcessor。

最后,如果你想某种集群,你可能想看看Carrot2,它已经做到了这一点并与Solr集成。

您所要求的是"主题模型"。Solr对此没有开箱即用的支持。但是,您可以集成其他工具来实现这一目标。

  • Apache Mahout支持LDA算法,可用于对主题进行建模。有几个将Solr与Mahout集成的例子。这是其中之一。

  • Apache UIMA(非结构化信息管理应用程序)。我不会费心打字。相反,这是一个精彩的演示。

最新更新