小贝子编程

dask 将数据帧导出到远程存储 (S3)

使用

dask_df.to_csv('s3://mybucket/mycsv.csv')

我收到一个错误，我应该安装s3fs

我确实在工人中安装了它(带有client.run()(，但仍然出现错误。

所以我在我的机器中本地安装了 s3fs，然后它就可以工作了。
但这是否意味着数据首先发送到我的机器，然后才导出到 S3？而不是只在集群中处理？

我也得到KilledWorker错误。导出由dd.concat()创建的两个 dask 数据帧组成。

但这

是否意味着数据首先发送到我的机器，然后才导出到 S3？而不是只在集群中处理？

不，这只是意味着您的客户端进程还需要与 S3 通信才能进行设置。

通常，工作线程和客户端进程上的软件环境应相同。

最新更新