如何将本地分布式调度程序设置为dask.dataframe的默认调度程序



我试图让dask.dataframe默认使用本地分布式调度程序,但我在阅读dask文档时还不清楚如何做到这一点。下面这样的东西够了吗?

from dask import distributed
from dask import dataframe as dd
client = distributed.Client(processes=True)  # use multi processing
dask.config.set(scheduler=client)
dd.merge(df1, df2, on='some_col')

是的:如果您创建任何类型的分布式Client,它将成为进一步Dask计算的默认调度器。

最新更新