概念洞察中的文本索引参数只给出概念发生的一个实例



我的文档中多次提到一个概念(例如"黄金")。然而,概念洞察的概念搜索将返回Gold作为一个概念,并且该概念只有一个文本索引(通常是第一次出现,但并不总是)。为什么概念洞察的概念搜索忽略了文档中其他提到的"黄金"?我感兴趣的是围绕一个概念的所有出现提取文本片段。如果我能得到所有提到这个概念的文本索引,那就太好了。除了在我的一端进行字符串匹配之外,还有什么方法可以得到它吗。

提前感谢您的帮助!

Concept Insights的概念搜索不会忽略文档中多次提到的相同(或相关)概念。事实上,该服务使用这些信息来加强系统对每个文档中涵盖的概念领域的理解。

然而,在解释文档与文档相关的原因时,/conceptual_search端点确实返回了一组选定的概念。因为系统试图展示概念的多样性,以证明您的查询和文档之间的连接是合理的,它可以省略重复的概念作为"解释"的一部分(你可以把这个"解释"想象成传统搜索引擎可能向用户建议的文本片段,说明为什么文档可能是相关的;它是而不是文档中发现的关联的完整故事)。

也就是说,您可以通过使用/annotationsendpoint:GET /v2/corpora/{account_id}/{corpus}/documents/{document}/annotations获取文档中提取的所有概念。

(文件:https://watson-api-explorer.mybluemix.net/apis/concept-insights-v2#/语料库/getDocumentAnnotations)

对于文档中的每个注释,您都可以获得概念id以及文档在文本中出现的位置。因此,对于您上面的示例,您可以:

1) 调用/conceptual_search端点来检索与查询相关的文档,以及一些解释概念(将文档与查询联系起来的概念);说你发现这个概念就是问题是Gold

2) 为返回的文档调用/{document}/annotations,查找所选文档中出现的其他"解释概念"(Gold)。您应该能够构建一个Gold出现的列表(以及其他解释概念的列表),该列表涵盖整个文档。

最新更新