斯坦福的UIMA只提供了一个包装器,还是像StandfordCore NLP和GATE一样



斯坦福核心NLP和GATE提供了各种NLP操作,如NER, POS标记。有一些NLP操作,如Tokenizer, Snowball Stemmer可以作为UIMA组件使用。那么,UIMA是否可以与StandfordCore NLP/GATE相媲美,或者它是用来为管道包装这些类型的api ?

核心UIMA框架不提供特定的NLP工具。它提供了从兼容uma的组件构建和运行分析工作流的方法。由于要分析的数据在实际应用程序中可能会增长得相当大,因此UIMA非常关注可伸缩性,提供了像UIMA- As或UIMA- ducc这样的分布式运行时环境。然而,UIMA不仅在大规模上有用,而且在将分析嵌入到应用程序或构建语言处理实验的科学上下文中也很有用。

有几个提供NLP工具的UIMA组件集合,通常包装第三方解决方案,如OpenNLP, Stanford CoreNLP等:

  • ClearTK -用于开发统计NLP组件的框架,还包括一些第三方工具的包装器
  • cTAKES -从电子病历临床自由文本中提取信息
  • DKPro Core -用于NLP的UIMA组件集合,包含许多用于UIMA的第三方工具
  • UIMA Addons—由UIMA团队自己提供的小组件集
  • U-Compare -集成文本挖掘/自然语言处理系统

这些是撰写本文时的一些主要收藏。如果您搜索UIMA组件,您可能会发现它们的其他来源。

核心UIMA框架与嵌入式GATE相媲美,减去GATE提供的开箱即用的任何处理资源。UIMA Ruta工作台可以说是GATE Developer工作台的远亲,或者更具体地说,是JAPE的远亲。

UIMA不如斯坦福大学的CoreNLP,因为UIMA不专注于提供特定的NLP组件,而CoreNLP则专注于提供。

像CoreNLP这样的NLP工具倾向于被包装成UIMA组件,以便在UIMA管道中使用。

像GATE这样的框架通常不会被包装成UIMA组件,但是作为GATE插件提供的特定NLP工具可能会被包装。

披露:我在Apache UIMA项目和DKPro Core项目上工作

最新更新