我们看到如下所述的集群自动缩放器:https://docs.openshift.com/container-platform/4.9/machine_management/applying-autoscaling.html当它看到挂起的GPU pod时放大,但当工作负载完成并移除pod时不缩小。任何可能阻止缩减的线索,我已经确保我们已经在OpenShift 4.9设置中启用了缩减
您是否检查了集群中需要由自动缩放删除的节点的以下所有条件是否为假
如果节点上存在以下类型的pod,集群自动缩放器将不会删除该节点:
具有限制性吊舱中断预算(PDB(的吊舱。
默认情况下不在节点上运行的Kube系统pod。
没有PDB或PDB限制过大的Kube系统pod。
没有控制器对象(如部署、副本集或有状态集(支持的吊舱。
带有本地存储的吊舱。
由于缺乏资源、节点选择器或亲和性不兼容、匹配反亲和性等原因而无法移动到其他位置的吊舱。
除非它们也有一个";cluster autoscaler.kubernetes.io/safe to驱逐":"真";注释,具有";cluster autoscaler.kubernetes.io/safe to驱逐":"false";注释。