在spark yarn集群模式下使用多个驱动核心的好处是什么?



在spark yarn集群模式下使用1 vs 2驱动芯有什么区别?如果我在yarn集群模式下使用2个驱动内核,那么spark驱动将在失败的情况下重新启动?如果是,在失败之前重试多少次?

如果有人能分享任何关于这方面的文章,我将不胜感激。

当您在YARN集群模式下启动应用程序时,它将为您的驱动程序创建容器。

这个容器——取决于您的应用程序——可能需要多个内核和多个gb的内存。这完全取决于同时有多少会话连接到您的Spark应用程序以及您的查询的复杂性。

如果你的查询编译缓慢或者你的Spark Web UI/app挂起,那么增加核心计数可能是值得的。

从YARN的角度来看,仍然只有一个驱动容器。

最新更新