我正在尝试使用火花提交运行脚本,如下所示
spark-submit -v
--master yarn
--num-executors 80
--driver-memory 10g
--executor-memory 10g
--executor-cores 5
--class cosineSimillarity jobs-1.0.jar
此脚本正在 60K 记录上实现 DIMSUM 算法。
引用: https://github.com/eBay/Spark/blob/master/examples/src/main/scala/org/apache/spark/examples/mllib/CosineSimilarity.scala
不幸的是,即使在 3 小时后,这种情况仍在继续。我厌倦了 1K 数据并在 2 分钟内成功运行。
任何人都可以建议对火花提交参数进行任何更改以使其更快吗?
您的 Spark-submit 语句表明您至少有 80*50=400 个内核,对吧?
这意味着您应该确保至少有 400 个分区,以确保所有内核都在工作(即每个内核至少有 1 个要处理的任务)。
查看您使用的代码,我认为您应该在读取sc.textFile()
中的文本文件时指定分区数,AFAIK 默认为 2(请参阅 SparkContext.scala 中的defaultMinPartitions
)