小贝子编程

在GPU上运行huggingface Bert标记器

本文关键字：Bert huggingface GPU 运行 deep-learning nlp huggingface-transformers huggingface-tokenizers
更新时间 : 2023-09-22
英文 : Running huggingface Bert tokenizer on GPU

我正在处理一个用于内容分类的巨大文本数据集。我已经实现了蒸馏器模型和蒸馏器tokenizer.from_pretrained() tokenizer..这个标记器花了很长时间来标记我的文本数据，大约7分钟，只有14k条记录，这是因为它在我的CPU上运行。

是否有办法强制标记器在我的GPU上运行。

标记化是字符串操作。它基本上是一个带有一系列if-else条件和字典查找的字符串的for循环。使用GPU是不可能加速的。基本上，GPU唯一能做的就是张量乘法和加法。只有那些可以用张量运算来表述的问题才能用GPU来加速。

Huggingface Transformers中的默认标记器是在Python中实现的。有一个更快的版本是用Rust实现的。您可以从独立包Huggingface Tokenziers或较新版本的Transformers中获得它，它们应该在DistilBertTokenizerFast下可用。

相关内容