dask 将数据帧导出到远程存储 (S3)



使用

dask_df.to_csv('s3://mybucket/mycsv.csv')

我收到一个错误,我应该安装s3fs

我确实在工人中安装了它(带有client.run()(,但仍然出现错误。

所以我在我的机器中本地安装了 s3fs,然后它就可以工作了。
但这是否意味着数据首先发送到我的机器,然后才导出到 S3?而不是只在集群中处理?

我也得到KilledWorker错误。导出由dd.concat()创建的两个 dask 数据帧组成。

但这

是否意味着数据首先发送到我的机器,然后才导出到 S3?而不是只在集群中处理?

不,这只是意味着您的客户端进程还需要与 S3 通信才能进行设置。

通常,工作线程和客户端进程上的软件环境应相同。

相关内容

最新更新