长时间运行的火花提交作业

我正在尝试使用火花提交运行脚本，如下所示

spark-submit -v 
--master yarn 
--num-executors 80 
--driver-memory 10g 
--executor-memory 10g 
--executor-cores 5 
--class cosineSimillarity jobs-1.0.jar

此脚本正在 60K 记录上实现 DIMSUM 算法。

引用： https://github.com/eBay/Spark/blob/master/examples/src/main/scala/org/apache/spark/examples/mllib/CosineSimilarity.scala

不幸的是，即使在 3 小时后，这种情况仍在继续。我厌倦了 1K 数据并在 2 分钟内成功运行。

任何人都可以建议对火花提交参数进行任何更改以使其更快吗？

您的 Spark-submit 语句表明您至少有 80*50=400 个内核，对吧？

这意味着您应该确保至少有 400 个分区，以确保所有内核都在工作（即每个内核至少有 1 个要处理的任务）。

查看您使用的代码，我认为您应该在读取sc.textFile()中的文本文件时指定分区数，AFAIK 默认为 2（请参阅 SparkContext.scala 中的defaultMinPartitions）

相关内容

最新更新

热门标签：