有可能合并dask吗.DataFrame.是否使用dask.compute与另一个dask计算进行分类



我试图避免使用dask.compute(list_of_dask_computations)重复dask计算。在我的代码中,我必须在dask数据帧中创建一些分类列,并调用dask.DataFrame.categorize以使类别为已知类别。但我希望在对dask.compute(list_of_dask_computations)提供的其他列进行其他计算的同时执行该调用。但我不知道怎么做。

以下是一个例子:

import dask
df = dask.datasets.timeseries()
df['letter'] = df['name'].str[0].astype('category')
mean_x = df['x'].mean()
mean_y = df['y'].mean()
# How to combine these two computations below
mean_x_val, mean_y_val = dask.compute(mean_x, mean_y)
df=df.categorize(columns=['letter']) # or df['letter']=df['letter'].cat.as_known()

感谢您的帮助。

阿诺。

我的理解是df.categorize隐含地在内部调用compute。我的猜测是,没有一种简单的方法可以同时将其与其他计算调用相结合。理想情况下,这种情况会改变。

最新更新