我希望加快使用huggingface的标记器来标记数百万个示例。
目前我正在使用一个pandas字符串列,并通过定义一个带有标记操作的函数对其进行标记,并使用该函数与pandasmap
一起转换我的文本列。
当我有数百万行文本时,这是一个缓慢的过程,我想知道是否有一种更快的方法来标记我所有的训练示例。
我并不仅限于熊猫。
也许你可以尝试更快捷地使用多进程来应用熊猫。
编辑下面是我的示例代码。
num_processors = 5
def do_something(text):
pass
df['text'].swifter.set_npartitions(num_processors).apply(do_something)