AWS Databricks集群启动失败



我目前无法启动我们的databricks AWS环境中的任何集群。

当我尝试启动一个按需集群时,它仍然处于"pending"状态。20分钟以上(在相对较小的集群上,通常需要2-3分钟启动)。

同样,我的所有计划作业都失败了,因为它们的作业集群也无法启动。这是一个示例错误消息:

Run result unavailable: job failed with error message Unexpected failure while waiting for the cluster [cluster_name] to be ready. Cause Cluster [cluster_name] is unusable since the driver is unhealthy.

当我试图调查这个问题时,驱动程序日志完全是空的。我尝试用运行时9.1和10.4启动集群,发现了同样的问题。

有人见过这个吗?这是数据库问题还是AWS问题?

有人见过这个吗?这是数据库问题还是AWS问题?

是的,我以前见过这种情况。在几乎所有情况下,这都是云提供商的问题,并在几个小时内自行解决。在网络更改后,我也看到了这种情况,其中设置了一个新的VPC。除非你的网络改变了,如果问题仍然存在,我会向databricks注册一个支持票。

这是一个非常模糊的错误信息,所以我有两个很好的选项用于故障排除,大多数情况下

  1. 如果由于云提供商API调用而关闭:您可以在数据库块集群的事件日志中看到实例id,然后使用该实例id可以登录AWS并进入CloudTrail>事件历史>将源更改为"事件名称";并搜索StopInstances"它会告诉你原因
  2. 否则,在EC2控制台下的实例上,您可以转到监控和故障排除>获取系统日志,它应该会提供EC2日志本身的所有内容

最新更新