Dask 支持哪些分布式文件系统?具体来说,可以从哪些文件系统读取dask.dataframe?从Dask文档中,我可以看到HDFS当然是受支持的。是否支持任何其他分布式文件系统,例如 Ceph 等?
我可以在这里找到一些关于支持其他文件系统的想法的讨论:https://github.com/dask/distributed/issues/33 但没有最终结论,除了 HDFS 比其他选项"更讨厌"。
感谢您的帮助!
最简单的答案是,如果您可以将文件系统挂载到每个节点上,即可以将其作为本地文件系统访问,那么您可以使用任何分布式系统 - 无需对任何给定文件块的原始位置进行任何性能优化。
如果您从元数据服务中获得了数据位置(对于 ceph 也是如此(,您可以将加载任务限制为仅在数据所在的计算机上运行。这没有实现,但从用户端来看可能不太复杂。过去对 hdfs 也做过类似的事情,但我们发现优化并不能证明代码的额外复杂性是合理的。
有关 Dask 当前支持哪些远程文件系统以及如何支持其他文件系统的文档,请参见此处:
- http://dask.pydata.org/en/latest/remote-data-services.html