小贝子编程

斯坦福PTBTokenizer令牌的拆分分隔符

本文关键字：拆分分隔符令牌 PTBTokenizer 斯坦福 tokenize stanford-nlp
更新时间 : 2023-09-01
英文 : Stanford PTBTokenizer token's split delimiter

有没有一种方法可以向PTBTokenizer提供一组分隔符字符来拆分令牌？

我测试了这个标记器的行为，我意识到有些字符，比如竖条"|"，标记器将其子字符串划分为两个标记，还有一些字符，比如斜杠或hypen，标记器返回一个标记。

PTBTokenizer没有任何简单的方法可以做到这一点。你可以做一些预处理和后处理来获得你想要的东西，尽管有两个问题值得一提：

所有使用CoreNLP分发的模型都是在标准标记器行为上进行训练的。如果您更改这些后续组件的输入标记化方式，则无法保证这些组件能够按预期工作
如果您做了足够的预处理和后处理（并且没有使用#1中提到的任何后续组件），那么只需窃取PTBTokenizer实现并编写自己的实现可能会更简单

（在自定义撇号标记化行为方面也有类似的问题：Stanford coreNLP-拆分单词忽略撇号。）

相关内容

最新更新