在GPU上运行huggingface Bert标记器



我正在处理一个用于内容分类的巨大文本数据集。我已经实现了蒸馏器模型和蒸馏器tokenizer.from_pretrained() tokenizer..这个标记器花了很长时间来标记我的文本数据,大约7分钟,只有14k条记录,这是因为它在我的CPU上运行。

是否有办法强制标记器在我的GPU上运行。

标记化是字符串操作。它基本上是一个带有一系列if-else条件和字典查找的字符串的for循环。使用GPU是不可能加速的。基本上,GPU唯一能做的就是张量乘法和加法。只有那些可以用张量运算来表述的问题才能用GPU来加速。

Huggingface Transformers中的默认标记器是在Python中实现的。有一个更快的版本是用Rust实现的。您可以从独立包Huggingface Tokenziers或较新版本的Transformers中获得它,它们应该在DistilBertTokenizerFast下可用。

最新更新