小贝子编程

dask分布式 - 相同的持久数据多个客户端

我们正在尝试分布式的dask以对前端进行一些重型计算和可视化。

现在，我们有一个与Gunicorn连接到现有分布式DASK群集的工人，该工人将当前的数据上传到read_csv并持续到群集中。

我已经尝试使用Pickle将期货从Persist DataFrame中节省下来，但它不起作用。

我们希望有多个枪支工人，每个工人都有不同的客户端连接到同一集群并使用相同的数据，但是每个工人都会上传一个新的数据框架。

听起来您正在寻找dask的abilty以发布数据集

一种方便的方法是使用client.datasets映射

客户1

client = Client('...')
df = dd.read_csv(...)
client.datasets['my-data'] = df

客户端2..n

client = Client('...')  # same scheduler
df = client.datasets['my-data']

相关内容