如何将WebAnno名称实体注释转换为OpenNLP中



基于此问题,我需要以XMI格式导出并使用DKPro Core转换为Brat格式:

https://github.com/webanno/webanno/issues/328

我尝试了此代码,但没有成功

public void convert() throws Exception {
    SimplePipeline.runPipeline(CollectionReaderFactory
            .createReaderDescription(XmiReader.class, XmiReader.PARAM_SOURCE_LOCATION, "/tmp", XmiReader.PARAM_PATTERNS,
                    XmiReader.INCLUDE_PREFIX + "*.xmi"), AnalysisEngineFactory
              .createEngineDescription(BratWriter.class, BratWriter.PARAM_TARGET_LOCATION, "/tmp"));
    }

brat格式的方言在dkpro core bratWriter所产生的内容和OpenNLP期望的内容之间可能有所不同 - BRAT文件格式非常灵活。

如果您在WebAnno中使用了内置的 name nestity 层,那么我将提出一条替代路线:

  • 与XMI导出一起
  • 用DKPro Core 1.9.0-Snapshot加载XMI并将其馈送到OpenNlpNamedEntityRecognizerTrainer组件

应该避免需要进行额外转换步骤的需要。

披露:我是Webanno和DKPro Core开发人员。

建议不起作用:

  • webanno中的CoNLL 2002导出
  • OpenNLP直接从Conll 2002文件中培训NER工具。
  • => Conll02NameSampleStream仅支持某些语言和命名实体类型... sigh

最新更新