连接条件期间的 Pyspark 内存问题



我正在使用 spark 2.1.0。我有 2 个不超过 3 MB 的数据帧。当我尝试在 2 个数据帧上运行内部连接时,我所有的转换逻辑都运行良好。但是当我在 2 个数据帧上使用 RightOuter 连接时,我得到以下错误。

错误

RN for exceeding memory limits. 1.5 GB of 1.5 GB physical memory used. 
Consider boosting spark.yarn.executor.memoryOverhead.
17/08/02 02:29:53 ERROR cluster.YarnScheduler: Lost executor 337 on ip-172-
21-1-105.eu-west-1.compute.internal: Container killed by YARN for exceeding 
memory limits. 1.5 GB of 1.5 GB physical memory used. Consider boosting 
spark.yarn.executor.memoryOverhead.
17/08/02 02:29:53 WARN scheduler.TaskSetManager: Lost task 34.0 in stage 
283.0 (TID 11396, ip-172-21-1-105.eu-west-1.compute.internal, executor 337): 
ExecutorLostFailure (executor 337 exited caused by one of the running tasks) 
Reason: Container killed by YARN for exceeding memory limits. 1.5 GB of 1.5 
GB physical memory used. Consider boosting 
spark.yarn.executor.memoryOverhead.
17/08/02 02:29:53 WARN server.TransportChannelHandler: Exception in 
connection from /172.21.1.105:50342
java.io.IOException: Connection reset by peer

我尝试了替代方案 1(df.coalesce(xvalue(.show(( 2(尝试设置执行器内存没有任何效果。

此问题在过去几周内一直悬而未决。谁能让我知道我哪里出错了

您能否分享有关数据集的详细信息。

  1. 两个数据集中的行数和列数。

您是否尝试过 leftOuterJoin,它是否也给您同样的错误。

问候

尼拉杰

最新更新