我正在尝试使用UIMA RUTA 2.6.0匹配一些多字标记。并且有一些短语彼此部分相等,例如,在同一文件中,我有以下条目:"包括","包括","在此","在"。
我的输入文件中有下一段文字:">1."代理人或员工"包括董事......"。显然,有一个">包含"匹配,但如果单词列表中存在其他上述 3 个条目,则不会找到匹配项。此外,单词列表中这些条目的排序并不取决于匹配成功:它总是失败。
并且此问题不仅发生在单个文件中。所以,问题来了:我该如何解决它?可能是RUTA注释器的某些设置?
单词列表中的空格可能会导致错过匹配项。如果空格不重要,请将配置参数"dictRemoveWS"设置为 true。
免责声明:我是UIMA Ruta的开发人员