我正在使用Google Cloud dataproc集群运行Spark。在将数据集写入GCS存储桶(Google云存储(时,它终于达到了永无止境的分区。
它显示已完成 799/800 个任务。但是待处理的 1 任务永远不会结束。
这主要是由于数据倾斜。
此外,如果您正在尝试联接,请检查用于联接的列中是否没有 Null 值。这可能会导致空值发生交叉联接
我正在使用Google Cloud dataproc集群运行Spark。在将数据集写入GCS存储桶(Google云存储(时,它终于达到了永无止境的分区。
它显示已完成 799/800 个任务。但是待处理的 1 任务永远不会结束。
这主要是由于数据倾斜。
此外,如果您正在尝试联接,请检查用于联接的列中是否没有 Null 值。这可能会导致空值发生交叉联接
javascript python java c# php android html jquery c++ css ios sql mysql arrays asp.net json python-3.x ruby-on-rails .net sql-server django objective-c excel regex ruby linux ajax iphone xml vba spring asp.net-mvc database wordpress string postgresql wpf windows xcode bash git oracle list vb.net multithreading eclipse algorithm macos powershell visual-studio image forms numpy scala function api selenium