我有多个polars
数据帧,我想将它们附加到现有的Parquet文件。
df.write_parquet("path.parquet")
覆盖现有的parquet文件。如何添加?
Polars不支持添加Parquet文件,大多数工具都不支持,例如这篇文章
您最好的选择是使用.to_arrow()
将数据框转换为箭头表,并使用pyarrow.dataset.write_dataset。具体来说,请参见对参数existing_data_behavior
的注释。但是,这需要在分区中组织数据,这实际上意味着每个分区都有一个单独的parquet文件,存储在同一个目录中。因此,您拥有的每个df
都成为自己的拼花文件,并且在读取时将其抽象出来。据我所知,polar不支持写分区。支持读取,参见pl.read_parquet中的source参数。