小贝子编程

Glue Spark一次写入一个分区的数据

本文关键字：一个分区数据一次 Spark Glue apache-spark pyspark apache-spark-sql aws-glue
更新时间 : 2023-09-20
英文 : Glue Spark write data one partition at time

需要帮助来了解它是如何工作的：我有2 TB的数据，我正在某个日期列上使用glue-spark分区编写这些数据。我使用的g2x有40个worker节点。

以下是一些观察结果：

作业是一次写入一个分区，即只加载一天的数据。(它不应该在多个分区中并行写入数据吗？(
它在分区中创建非常小的文件

由于上述原因，写入数据非常缓慢。是否有任何设置可以更改以改进这一点？

为了避免创建非常小的文件，可以使用coalesce(k)，其中k是您想要的分区数，可能是40。

关于聚结的更多信息

相关内容

最新更新