如何替换BERT标记器的特殊标记



我正在使用AutoTokenizer—>tokenizer1 = AutoTokenizer.from_pretrained("vinai/bertweet-base", normalization=True),它比bert-base-uncase的标记器更完整。问题是,当我对一些文本进行标记时,这个标记器有不同的特殊标记:

special_tokens={'bos_token': '<s>', 'eos_token': '</s>', 'unk_token': '<unk>', 'sep_token': '</s>', 'pad_token': '<pad>', 'cls_token': '<s>', 'mask_token': '<mask>'})> 

而bert-base-uncase标记器有这些:

tokenizer = BertTokenizer.from_pretrained(PRE_TRAINED_MODEL_NAME, normalization=True)
special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'})>

我想替换这些特殊的令牌,以使它们适合bert-base-uncase,因此它不会引发错误。

这主要是一个字符串替换问题,但也有一些复杂的问题。你的第一个集合有"bos_token"one_answers";cls_token"均由<s>和"eos_token"one_answers";sep_token"均以</s>表示。你的第二套没有BOS和EOS的概念,所以如果我们有其他的选择,你可以这样使用:

s = s.replace('<s>','[CLS]')  
.replace('</s>','[SEP]')  
.replace('<unk>','[UNK]')  
.replace('<pad>','[PAD]')  
.replace('<mask>','[MASK]')

相关内容

  • 没有找到相关文章

最新更新