微调BERT时是否绝对需要特殊令牌[CLS][SEP]



我正在学习教程https://www.depends-on-the-definition.com/named-entity-recognition-with-bert/使用BERT进行命名实体识别。

在微调时,在向模型提供令牌之前,作者会这样做:

input_ids = pad_sequences([tokenizer.convert_tokens_to_ids(txt) for txt in tokenized_texts],
maxlen=MAX_LEN, dtype="long", value=0.0,
truncating="post", padding="post")

根据我的测试,这不会向id添加特殊的令牌。那么,我是遗漏了什么,还是我并不总是需要包括[CLS](101([SEP](102(?

我也在学习本教程。它在没有添加这些令牌的情况下对我有效,然而,我在另一个教程中发现(https://vamvas.ch/bert-for-ner)最好添加它们,因为模型是以这种格式训练的。

[更新]事实上,只是检查了一下,结果发现添加代币后,准确性提高了20%。但请注意,我在不同的数据集上使用它

最新更新