如何从Polars向现有Parquet附加数据



我有多个polars数据帧,我想将它们附加到现有的Parquet文件。

df.write_parquet("path.parquet")覆盖现有的parquet文件。如何添加?

Polars不支持添加Parquet文件,大多数工具都不支持,例如这篇文章

您最好的选择是使用.to_arrow()将数据框转换为箭头表,并使用pyarrow.dataset.write_dataset。具体来说,请参见对参数existing_data_behavior的注释。但是,这需要在分区中组织数据,这实际上意味着每个分区都有一个单独的parquet文件,存储在同一个目录中。因此,您拥有的每个df都成为自己的拼花文件,并且在读取时将其抽象出来。据我所知,polar不支持写分区。支持读取,参见pl.read_parquet中的source参数。

最新更新