斯坦福PTBTokenizer令牌的拆分分隔符



有没有一种方法可以向PTBTokenizer提供一组分隔符字符来拆分令牌?

我测试了这个标记器的行为,我意识到有些字符,比如竖条"|",标记器将其子字符串划分为两个标记,还有一些字符,比如斜杠或hypen,标记器返回一个标记。

PTBTokenizer没有任何简单的方法可以做到这一点。你可以做一些预处理和后处理来获得你想要的东西,尽管有两个问题值得一提:

  1. 所有使用CoreNLP分发的模型都是在标准标记器行为上进行训练的。如果您更改这些后续组件的输入标记化方式,则无法保证这些组件能够按预期工作
  2. 如果您做了足够的预处理和后处理(并且没有使用#1中提到的任何后续组件),那么只需窃取PTBTokenizer实现并编写自己的实现可能会更简单

(在自定义撇号标记化行为方面也有类似的问题:Stanford coreNLP-拆分单词忽略撇号。)

最新更新