我正在使用Google Cloud dataproc集群运行Spark.数据集写入 GCS 卡住了待处理的 1 个任务,



我正在使用Google Cloud dataproc集群运行Spark。在将数据集写入GCS存储桶(Google云存储(时,它终于达到了永无止境的分区。

它显示已完成 799/800 个任务。但是待处理的 1 任务永远不会结束。

这主要是由于数据倾斜。

此外,如果您正在尝试联接,请检查用于联接的列中是否没有 Null 值。这可能会导致空值发生交叉联接

最新更新