GKE:Kubernetes Master/kubectl 在节点扩展期间无响应



给定是一个集群而不是静态工作负载,部署到一个固定大小的节点池(默认(。额外的节点池可容纳弹性工作负载,池大小从 0 - ~10 个实例变化。在缩放期间大多数情况下群集没有响应:

  1. 我无法访问 GKE 上的某些集群页面,例如工作负载(抱歉德语界面( https://i.stack.imgur.com/MSd3Y.png
  2. Kubectl 无法连接和现有连接,如端口转发,但也get pods -w会断开连接:
    1. E0828 12:36:14.495621 10818 portforward.go:233] lost connection to pod
    2. The connection to the server 35.205.157.182 was refused - did you specify the right host or port?
  3. 此外,我认为像 prom 运算符这样的依赖工具会遇到问题,因为在此期间一些非常默认的参数(如kube_pod_container_info缺少数据
  4. (

到目前为止,我尝试的是从区域群集切换到区域群集(无单节点主节点?(,但这没有帮助。此外,此问题不会发生在节点池的每个规模上,而是在大多数情况下。

所以我的问题是 - 如何调试/修复它?

这是预期的行为。

创建集群时,将根据nodepool大小选择用于主服务器的计算机,然后当autoscaler创建更多nodes时,主节点的计算机类型将更改为能够处理新数量的节点。

在主节点更新为新计算机类型期间,您将失去与 API 的连接并收到报告的消息,此外,由于与 API 的通信中断,您无法在云控制台中可视化与集群相关的任何信息,如附图所示。

您可以尝试避免在创建时更改最小节点数,例如,您提到使用的限制为 0 和 10,因此在创建集群时,您可以使用中间点 5,它可能支持最大节点数,以防工作负载需要它们。

最新更新