Glue Spark一次写入一个分区的数据



需要帮助来了解它是如何工作的:我有2 TB的数据,我正在某个日期列上使用glue-spark分区编写这些数据。我使用的g2x有40个worker节点。

以下是一些观察结果:

  1. 作业是一次写入一个分区,即只加载一天的数据。(它不应该在多个分区中并行写入数据吗?(
  2. 它在分区中创建非常小的文件

由于上述原因,写入数据非常缓慢。是否有任何设置可以更改以改进这一点?

为了避免创建非常小的文件,可以使用coalesce(k),其中k是您想要的分区数,可能是40。

关于聚结的更多信息

最新更新