使用
dask_df.to_csv('s3://mybucket/mycsv.csv')
我收到一个错误,我应该安装s3fs
我确实在工人中安装了它(带有client.run()
(,但仍然出现错误。
所以我在我的机器中本地安装了 s3fs,然后它就可以工作了。
但这是否意味着数据首先发送到我的机器,然后才导出到 S3?而不是只在集群中处理?
我也得到KilledWorker
错误。导出由dd.concat()
创建的两个 dask 数据帧组成。
但这
是否意味着数据首先发送到我的机器,然后才导出到 S3?而不是只在集群中处理?
不,这只是意味着您的客户端进程还需要与 S3 通信才能进行设置。
通常,工作线程和客户端进程上的软件环境应相同。