小贝子编程

对数百万个示例进行标记的最快方法?

本文关键字：方法百万个数百万 python pandas huggingface-transformers huggingface-tokenizers
更新时间 : 2023-09-22
英文 : Fastest way to tokenize millions of examples?

我希望加快使用huggingface的标记器来标记数百万个示例。

目前我正在使用一个pandas字符串列，并通过定义一个带有标记操作的函数对其进行标记，并使用该函数与pandasmap一起转换我的文本列。

当我有数百万行文本时，这是一个缓慢的过程，我想知道是否有一种更快的方法来标记我所有的训练示例。

我并不仅限于熊猫。

也许你可以尝试更快捷地使用多进程来应用熊猫。

编辑下面是我的示例代码。

num_processors = 5
def do_something(text):
pass
df['text'].swifter.set_npartitions(num_processors).apply(do_something)

最新更新

如何加载存储在同一DAT文件中的多个python对象?
代理跨域请求与angular——proxy.config
属性错误："函数"对象没有属性"args"
OpenGL/glm显示黑屏
我收到此警告标志数组索引 4001 已超过数组的末尾(包含 4001 个元素)
Spring Content 1.2.5 JPA(Postgres) .docx文件突变为zip归档
将十进制转换为十六进制，并确保它们是数字
为用户在登录页面后添加路由
动态变量导致错误，因为它没有正确分配
有可能从手机中获得指纹或人脸验证吗?
File IO From a JAR File
如何获得上下文在一个简单的类没有BuildContext在扑动
无法向 Tkinter 窗口添加背景
如何将RGB图像转换为灰度，但保持一种颜色?——Java
我应该在Docker内部还是在虚拟环境中安装气流?
属性错误： 'DataFrame'对象没有属性'assign'
如何在每次在DirectoryInfo.GetFiles()中加载新文件时执行操作?
HTML中的Javascript在Angular中不起作用
如何在firebase中调度大约每整小时运行一次的函数?
Uncaught TypeError:不能访问数组上字符串类型的偏移量
Switch(Select)在TRANSFORM和Select之间工作吗?
MySQL SELECT查询工作，但具有相同WHERE子句的UPDATE查询不工作
drupal 10 localhost站点:如何在安装和注销后访问登录页面
Flutter原生启动画面图像未出现- Flutter (Dart)
用另一个远程分支覆盖一个远程分支
邮递员说"The route api...could not be found."(拉拉维尔)
Firebase Messaging项目Google Analytics升级失败
在初始页面加载时未应用FacetWP查询顺序数组设置
GitHub邀请过期吗?
使用AWS秘密管理器端点的安全组

对数百万个示例进行标记的最快方法?

相关内容

最新更新

热门标签：