是否需要在 RUTA 脚本中进行一些额外的设置来检测具有相同开始和结束属性的注释?



我有一个来自Tika UIMA Annotator的xmi输出,它被传递给UIMA Ruta脚本进行进一步处理。我能够成功导入相应的类型系统并检测任何覆盖某些文本片段的标记注释。

但是,输入具有一些标记注释,其开始和结束值相同(因此,不要覆盖任何文本(。RUTA 引擎无法识别这些注释。

例如,不会触发以下规则:

MarkupAnnotation.name=="img" {->MARK(IMAGE}};

但是在 CAS 查看器中,我看到很多特征名称等于"img"的标记注释,并且它们都具有相等的开始和结束属性。

我是否应该在脚本中做一些额外的规范来捕获这样的注释?

UIMA Ruta (2.6.1( 不支持长度为 0(begin == end(的注释匹配。

有多种原因,例如,顺序匹配是有问题的,因为注释可以在自身之前和之后。

免责声明:我是UIMA Ruta的开发人员

最新更新