基于此问题,我需要以XMI格式导出并使用DKPro Core转换为Brat格式:
https://github.com/webanno/webanno/issues/328
我尝试了此代码,但没有成功
public void convert() throws Exception {
SimplePipeline.runPipeline(CollectionReaderFactory
.createReaderDescription(XmiReader.class, XmiReader.PARAM_SOURCE_LOCATION, "/tmp", XmiReader.PARAM_PATTERNS,
XmiReader.INCLUDE_PREFIX + "*.xmi"), AnalysisEngineFactory
.createEngineDescription(BratWriter.class, BratWriter.PARAM_TARGET_LOCATION, "/tmp"));
}
brat格式的方言在dkpro core bratWriter所产生的内容和OpenNLP期望的内容之间可能有所不同 - BRAT文件格式非常灵活。
如果您在WebAnno中使用了内置的 name nestity 层,那么我将提出一条替代路线:
- 与XMI导出一起
- 用DKPro Core 1.9.0-Snapshot加载XMI并将其馈送到
OpenNlpNamedEntityRecognizerTrainer
组件
应该避免需要进行额外转换步骤的需要。
披露:我是Webanno和DKPro Core开发人员。
建议不起作用:
- webanno中的
CoNLL 2002
导出 - OpenNLP直接从Conll 2002文件中培训NER工具。
- =>
Conll02NameSampleStream
仅支持某些语言和命名实体类型... sigh