为什么GPT-2词汇表中有怪词?

我在看GPT-2的词汇表。

https://huggingface.co/gpt2/blob/main/vocab.json

我惊奇地发现了我没有预料到的非常奇怪的符号。例如，它包含令牌(索引35496):AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA这是怎么发生的?这个标记在GPT-2训练数据中很常见吗?总的来说，GPT-2的词汇表是如何构建的，这里有问题吗?

这里有关于模型的信息https://huggingface.co/gpt2

OpenAI团队希望在尽可能大的语料库上训练这个模型。为了建立它，他们从Reddit上的出站链接中抓取了所有获得至少3个业力的网页。请注意，所有维基百科页面都从该数据集中删除了，因此该模型没有在维基百科的任何部分上进行训练。生成的数据集(称为WebText)对40GB的文本进行加权，但尚未公开发布。您可以在这里找到WebText中存在的前1000个域名的列表。

根据拥抱脸GPT2Tokenizer，该标记器是基于BPE的，这样的标记可能由于编码问题而结束在那里。

你可以看到，这是ÃÂ的字符代码是195,194,C3 C2，可以是一个两字节编码字符在不同的编码?或者泄露到语料库中的二进制数据的一部分?

如果该标记不频繁，则很可能它在输出中永远不会相关。但这是一个问题，因为模型浪费了资源来描述该令牌的行为。

相关内容

最新更新

热门标签：