Dask分布式本地目录



我想将所有 all dask临时数据引导到我在/mnt/1处的快速和大磁盘。我正在运行调度程序:

dask-scheduler --local-directory /mnt/1

和工人:

dask-worker 127.0.0.1:8786 --memory-limit 16GB --nthreads 1 --nprocs 6 --local-directory /mnt/1/

我的进口看起来像这样:

import dask
from dask import dataframe as dd
from dask import delayed
from dask.distributed import Client
client = Client('localhost:8786', set_as_default=True)
dask.config.set(shuffle='disk')

但是,我仍在看到一个partd目录正在创建和填充我的/tmp目录中,该目录不在我的快速和大磁盘上。

我的问题是:如何将Dask分发到发送给绝对所有 em to /mnt/1,而不是在/tmp中放置任何内容

这似乎有效,请注意最后一行。有点烦人的是,命令行标志实际上没有做他们建议做的事情。

import dask
from dask import dataframe as dd
from dask import delayed
from dask.distributed import Client
client = Client('localhost:8786', set_as_default=True)
dask.config.set(shuffle='disk')
dask.config.set({'temporary_directory': '/mnt/1'})

最新更新