哪种方式最好读取要作为 DASK 数据帧处理的镶木地板文件



我有包含小镶木地板文件(600(的目录,我想在这些镶木地板上执行ETL并将这些镶木地板合并为每个文件128mb。 处理数据的最佳方法是什么。

我应该读取镶木地板目录中的每个文件并连接为单个数据框并执行 groupBY 吗? 还是提供镶木地板目录名称来dd.read_parquet和处理它?

我觉得,当我逐个文件读取文件时,它会创建一个非常大的 dask 图,无法作为图像。 我想它也适用于这么多线程?这会导致内存错误。

哪种方式最好读取拼花地板文件作为DASK数据帧进行处理? 逐个文件或提供整个目录?

不幸的是,没有一种最佳方法可以在所有情况下读取 Parquet 文件。 为了正确回答这个问题,您需要更多地了解您的情况。