如何在GKE中重新启动无反应的Kubernetes大师

昨晚在US-CENTRAL1-A中的基础设施问题之后，昨晚我的GKE群集中的Kubernetes大师变得无反应。

每当我在默认名称空间中运行" kubectl get pods"时，我会收到以下错误消息：服务器中的错误：服务器上的错误已阻止请求成功

如果我运行" kubectl获取豆荚-namespace = kube-system"，我只会看到kube-proxy和fluentd-logging守护程序。

我尝试将群集缩放到0，然后将其缩放为0。我还尝试过降级和升级集群，但这似乎仅适用于节点（不是主节点）。是否有GKE/K8S API命令向Kubernetes Master发布重新启动？

没有一个命令可以让您重新启动GKE中的Kubernetes Master（因为主被认为是托管服务的一部分）。有自动化的基础架构（然后是Google的OnCall工程师），负责如果不健康，则负责重新启动主机。

在这种特殊情况下，重新启动大师没有将其恢复为正常行为，因为Google计算引擎事件＃16011在2016-06-28造成了在US-CENTRAL1-A中运行的GKE Masters的中断（即使那样在Google Cloud Status仪表板上未指示）。在事件发生期间，许多硕士都没有。

如果您尝试使用Kube-up.sh创建一个GCE群集。在此期间，您也会发现，由于SSD持久性磁盘延迟问题，它将无法创建功能主VM。

我试图至少有一个版本来升级，如果您尝试升级主人，它将在几分钟内重新启动并工作。否则，您应该等待大约3天，而Google团队将重新启动它。在电子邮件/手机上，不会为您提供帮助。除非您支付了支持（过渡到花费几天），否则它们不会给鸟。

相关内容