是否可以将solr中的子文档集成到胡萝卜工作台中

在我的solr数据库中，我有一个如下结构：表示人名的父文档(字典(。这些父文档还包含嵌套的子文档，与这些人名匹配的文档将出现在子文档中(嵌套的词典列表(。

当我试图以合理的方式对信息进行聚类时，我只能直接对子文档进行聚类，这会产生一堆属于这些文本的聚类关键字。

理想情况下，我希望根据嵌套子文档的相似性对人员(父文档(进行聚类。因此，我不想把文本中的关键词聚集在一起，而是想把内容相似的人名聚集在一起。

例如，如果Bob、John、Lewis配置文件都具有包含文本"的子文档；我们对Python非常熟练；；并且Dan、Maria、Chris配置文件具有包含文本"的子文档；我们精通Java"；。我想要一簇(Bob，John，Lewis(和一簇(Dan，Maria，Chris。因此，当我们点击第一个集群时，我们得到的结果是"我们对Python非常熟练"；，对于第二个簇；我们在Java方面非常熟练"；。

有没有办法在胡萝卜工作台上复制这样的结构？

很遗憾没有。这是一个非常具体的场景，我们的目标是使Workbench成为一个通用工具，Solr是众多文档源之一。

对于这种父子集群，您需要直接使用Carrot2 Java或REST API：

从Solr中获取子文档，将它们聚集在Carrot2中
对于每个集群C：
- 创建具有与集群C相同标签的新集群CC
- 对于集群C中的每个子文档D，取该子文档的父文档P并将该父文档放在集群CC中
- 将集群CC放在父集群的集合中

由于执行了上述过程，您将拥有一组包含父文档的集群，这些父文档按文档的子文档的文本内容进行集群。

相关内容

最新更新

热门标签：