AWS Databricks集群启动失败

我目前无法启动我们的databricks AWS环境中的任何集群。

当我尝试启动一个按需集群时，它仍然处于"pending"状态。20分钟以上(在相对较小的集群上，通常需要2-3分钟启动)。

同样，我的所有计划作业都失败了，因为它们的作业集群也无法启动。这是一个示例错误消息:

Run result unavailable: job failed with error message Unexpected failure while waiting for the cluster [cluster_name] to be ready. Cause Cluster [cluster_name] is unusable since the driver is unhealthy.

当我试图调查这个问题时，驱动程序日志完全是空的。我尝试用运行时9.1和10.4启动集群，发现了同样的问题。

有人见过这个吗?这是数据库问题还是AWS问题?

有人见过这个吗?这是数据库问题还是AWS问题?

是的，我以前见过这种情况。在几乎所有情况下，这都是云提供商的问题，并在几个小时内自行解决。在网络更改后，我也看到了这种情况，其中设置了一个新的VPC。除非你的网络改变了，如果问题仍然存在，我会向databricks注册一个支持票。

这是一个非常模糊的错误信息，所以我有两个很好的选项用于故障排除，大多数情况下

如果由于云提供商API调用而关闭:您可以在数据库块集群的事件日志中看到实例id，然后使用该实例id可以登录AWS并进入CloudTrail>事件历史>将源更改为"事件名称";并搜索StopInstances"它会告诉你原因
否则，在EC2控制台下的实例上，您可以转到监控和故障排除>获取系统日志，它应该会提供EC2日志本身的所有内容

相关内容

最新更新

热门标签：