长时间运行的火花提交作业



我正在尝试使用火花提交运行脚本,如下所示

spark-submit -v 
--master yarn 
--num-executors 80 
--driver-memory 10g 
--executor-memory 10g 
--executor-cores 5 
--class cosineSimillarity jobs-1.0.jar

此脚本正在 60K 记录上实现 DIMSUM 算法。

引用: https://github.com/eBay/Spark/blob/master/examples/src/main/scala/org/apache/spark/examples/mllib/CosineSimilarity.scala

不幸的是,即使在 3 小时后,这种情况仍在继续。我厌倦了 1K 数据并在 2 分钟内成功运行。

任何人都可以建议对火花提交参数进行任何更改以使其更快吗?

您的 Spark-submit 语句表明您至少有 80*50=400 个内核,对吧?

这意味着您应该确保至少有 400 个分区,以确保所有内核都在工作(即每个内核至少有 1 个要处理的任务)。

查看您使用的代码,我认为您应该在读取sc.textFile()中的文本文件时指定分区数,AFAIK 默认为 2(请参阅 SparkContext.scala 中的defaultMinPartitions

最新更新