是否可以将solr中的子文档集成到胡萝卜工作台中



在我的solr数据库中,我有一个如下结构:表示人名的父文档(字典(。这些父文档还包含嵌套的子文档,与这些人名匹配的文档将出现在子文档中(嵌套的词典列表(。

当我试图以合理的方式对信息进行聚类时,我只能直接对子文档进行聚类,这会产生一堆属于这些文本的聚类关键字。

理想情况下,我希望根据嵌套子文档的相似性对人员(父文档(进行聚类。因此,我不想把文本中的关键词聚集在一起,而是想把内容相似的人名聚集在一起。

例如,如果Bob、John、Lewis配置文件都具有包含文本"的子文档;我们对Python非常熟练;;并且Dan、Maria、Chris配置文件具有包含文本"的子文档;我们精通Java";。我想要一簇(Bob,John,Lewis(和一簇(Dan,Maria,Chris。因此,当我们点击第一个集群时,我们得到的结果是"我们对Python非常熟练";,对于第二个簇;我们在Java方面非常熟练";。

有没有办法在胡萝卜工作台上复制这样的结构?

很遗憾没有。这是一个非常具体的场景,我们的目标是使Workbench成为一个通用工具,Solr是众多文档源之一。

对于这种父子集群,您需要直接使用Carrot2 Java或REST API:

  1. 从Solr中获取子文档,将它们聚集在Carrot2中
  2. 对于每个集群C:
    • 创建具有与集群C相同标签的新集群CC
    • 对于集群C中的每个子文档D,取该子文档的父文档P并将该父文档放在集群CC中
    • 将集群CC放在父集群的集合中

由于执行了上述过程,您将拥有一组包含父文档的集群,这些父文档按文档的子文档的文本内容进行集群。

最新更新