对数百万个示例进行标记的最快方法?



我希望加快使用huggingface的标记器来标记数百万个示例。

目前我正在使用一个pandas字符串列,并通过定义一个带有标记操作的函数对其进行标记,并使用该函数与pandasmap一起转换我的文本列。

当我有数百万行文本时,这是一个缓慢的过程,我想知道是否有一种更快的方法来标记我所有的训练示例。

我并不仅限于熊猫。

也许你可以尝试更快捷地使用多进程来应用熊猫。

编辑下面是我的示例代码。

num_processors = 5
def do_something(text):
pass
df['text'].swifter.set_npartitions(num_processors).apply(do_something)

最新更新