我正在处理一个用于内容分类的巨大文本数据集。我已经实现了蒸馏器模型和蒸馏器tokenizer.from_pretrained() tokenizer..这个标记器花了很长时间来标记我的文本数据,大约7分钟,只有14k条记录,这是因为它在我的CPU上运行。
是否有办法强制标记器在我的GPU上运行。
标记化是字符串操作。它基本上是一个带有一系列if-else条件和字典查找的字符串的for循环。使用GPU是不可能加速的。基本上,GPU唯一能做的就是张量乘法和加法。只有那些可以用张量运算来表述的问题才能用GPU来加速。
Huggingface Transformers中的默认标记器是在Python中实现的。有一个更快的版本是用Rust实现的。您可以从独立包Huggingface Tokenziers或较新版本的Transformers中获得它,它们应该在DistilBertTokenizerFast
下可用。