当我们重新启动Azure Databricks集群时,内部会发生什么?



当我们遇到很多阶段故障时,我们通常会重启集群以避免阶段故障。I want to know

1)当我们重新启动它时,到底发生了什么?

2)是否从集群中移除元数据/缓存?

3)在不重启集群的情况下,是否有其他方法可以满足上述要求?

当您重新启动集群时,将重新初始化spark应用程序,就像从头开始一样,删除集群中的所有缓存。

当您重新启动、spark初始化和引导所有库加载metastore和DBFS时,您将在集群驱动程序日志中看到这一点。

立即快速重启(间隔不超过5分钟)不能做的一件事是不取消配置承载应用程序的底层VM实例。如果您认为虚拟机处于坏状态终止-给5分钟的间隙,然后重新开始。(这并不适用于池上的集群,因为池即使在终止后也能维持虚拟机。

最新更新