我在看GPT-2的词汇表。
https://huggingface.co/gpt2/blob/main/vocab.json
我惊奇地发现了我没有预料到的非常奇怪的符号。例如,它包含令牌(索引35496):AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA这是怎么发生的?这个标记在GPT-2训练数据中很常见吗?总的来说,GPT-2的词汇表是如何构建的,这里有问题吗?
这里有关于模型的信息https://huggingface.co/gpt2
OpenAI团队希望在尽可能大的语料库上训练这个模型。为了建立它,他们从Reddit上的出站链接中抓取了所有获得至少3个业力的网页。请注意,所有维基百科页面都从该数据集中删除了,因此该模型没有在维基百科的任何部分上进行训练。生成的数据集(称为WebText)对40GB的文本进行加权,但尚未公开发布。您可以在这里找到WebText中存在的前1000个域名的列表。
根据拥抱脸GPT2Tokenizer,该标记器是基于BPE的,这样的标记可能由于编码问题而结束在那里。
你可以看到,这是ÃÂ
的字符代码是195
,194
,C3 C2
,可以是一个两字节编码字符在不同的编码?或者泄露到语料库中的二进制数据的一部分?
如果该标记不频繁,则很可能它在输出中永远不会相关。但这是一个问题,因为模型浪费了资源来描述该令牌的行为。