如何在执行火花作业时避免执行人失败。我们将Spark 1.6版本作为Cloudera CDH 5.10的一部分。通常我要低于错误。
ExecutorLostFailure (executor 21 exited caused by one of the running tasks) Reason: Executor heartbeat timed out after 127100 ms
执行缓慢的任务背后可能有各种原因,然后暂停,您需要向下钻取以找到rootcause。有时,调整默认超时配置参数也会有所帮助。转到Spark UI配置选项卡并找出以下参数的值,然后增加spark-submit
中的超时参数。
spark.worker.timeout
spark.network.timeout
spark.akka.timeout
使用投机执行spark.speculation=true
运行作业也有帮助,如果一个或多个任务在阶段缓慢运行,则将重新启动。
探索有关Spark 1.6.0配置属性的更多信息。