如何从Apache Spark编写HDF5文件?

我已经找到了从Spark读取HDF5文件的工具，但不是用于编写它们。这可能吗?

我们有一个10-40TB大小的数据集。我们目前将其写成大约20,000个Python pickle文件。这不是很便携。此外，HDF5提供压缩。

我们可以编写parquet文件，一种方法是将parquet文件写出来，然后将其转换为HDF5。然而，这种方法是不可取的，因为没有一个转换工具是多线程的。

我们想使用HDF5，因为它在科学界得到了广泛的接受。它在Matlab和Stata等程序中的支持明显优于parquet。

与HDFGroup协商后，我们确定目前没有办法直接从Spark写入HDF5文件。它们可以用numpy和pandas从Dask中编写，但不能从Spark中编写。

相关内容