需要帮助来了解它是如何工作的:我有2 TB的数据,我正在某个日期列上使用glue-spark分区编写这些数据。我使用的g2x有40个worker节点。
以下是一些观察结果:
- 作业是一次写入一个分区,即只加载一天的数据。(它不应该在多个分区中并行写入数据吗?(
- 它在分区中创建非常小的文件
由于上述原因,写入数据非常缓慢。是否有任何设置可以更改以改进这一点?
为了避免创建非常小的文件,可以使用coalesce(k)
,其中k是您想要的分区数,可能是40。
关于聚结的更多信息