如何在GKE中重新启动无反应的Kubernetes大师



昨晚在US-CENTRAL1-A中的基础设施问题之后,昨晚我的GKE群集中的Kubernetes大师变得无反应。

每当我在默认名称空间中运行" kubectl get pods"时,我会收到以下错误消息:服务器中的错误:服务器上的错误已阻止请求成功

如果我运行" kubectl获取豆荚-namespace = kube-system",我只会看到kube-proxy和fluentd-logging守护程序。

我尝试将群集缩放到0,然后将其缩放为0。我还尝试过降级和升级集群,但这似乎仅适用于节点(不是主节点)。是否有GKE/K8S API命令向Kubernetes Master发布重新启动?

没有一个命令可以让您重新启动GKE中的Kubernetes Master(因为主被认为是托管服务的一部分)。有自动化的基础架构(然后是Google的OnCall工程师),负责如果不健康,则负责重新启动主机。

在这种特殊情况下,重新启动大师没有将其恢复为正常行为,因为Google计算引擎事件#16011在2016-06-28造成了在US-CENTRAL1-A中运行的GKE Masters的中断(即使那样在Google Cloud Status仪表板上未指示)。在事件发生期间,许多硕士都没有。

如果您尝试使用Kube-up.sh创建一个GCE群集。在此期间,您也会发现,由于SSD持久性磁盘延迟问题,它将无法创建功能主VM。

我试图至少有一个版本来升级,如果您尝试升级主人,它将在几分钟内重新启动并工作。否则,您应该等待大约3天,而Google团队将重新启动它。在电子邮件/手机上,不会为您提供帮助。除非您支付了支持(过渡到花费几天),否则它们不会给鸟。

最新更新