如何从Apache Spark编写HDF5文件?



我已经找到了从Spark读取HDF5文件的工具,但不是用于编写它们。这可能吗?

我们有一个10-40TB大小的数据集。我们目前将其写成大约20,000个Python pickle文件。这不是很便携。此外,HDF5提供压缩。

我们可以编写parquet文件,一种方法是将parquet文件写出来,然后将其转换为HDF5。然而,这种方法是不可取的,因为没有一个转换工具是多线程的。

我们想使用HDF5,因为它在科学界得到了广泛的接受。它在Matlab和Stata等程序中的支持明显优于parquet。

与HDFGroup协商后,我们确定目前没有办法直接从Spark写入HDF5文件。它们可以用numpy和pandas从Dask中编写,但不能从Spark中编写。

最新更新