Apache Uima Ruta-非英语句子处理



我用两种不同的语言(英语,韩语)测试了ruta脚本。我想获得相同的结果,与单词分裂。但是朝鲜语并没有被言语剥夺。

脚本: 声明最后1; w { -> last1};

文档:"这是一个样本。"

结果: 这 , 是 , A , 样品

文档:"이것이것샘플。"
结果 : "(没有)

我想获得的结果: 이것,샘플샘플

结果一无所有。我想知道如何将非英语单词视为ruta中的单词。

希望您的帮助!

i使用'split'解决。

句子{ -> split(space)};

(Apache UIMA ROTA核2.6.1)

无论如何,我想知道如何使用保留的关键字" W"。

最新更新