如何监控pod抢占事件



我负责处理一堆Rancher集群,其中一些集群的开发人员使用PriorityClasses来确保一些更重要的工作负载得到调度。3个PriorityClasses在3位数范围内,因此它们不会干扰默认值。然而,目前PriorityClassespreemptionPolicy都没有设置为默认值,因此默认为PreemptLowerPriority

牧场主、长角牛、普罗米修斯、格拉法纳等的工作负载均未设置priorityClassName

长话短说,我相信这会在资源短缺的情况下对集群造成严重破坏。

在我向开发人员发表意见之前,我想收集一些数据来支持我的故事。

问题是:我如何检测吊舱是否因抢占而终止?

我试着用谷歌搜索这个主题,但什么也找不到。我希望kube state metrics能有所收获,但我什么也没找到。

如有任何帮助,我们将不胜感激。

您可以尝试在kubectl的帮助下寻找令人信服的数据,如pod终止原因。

您可以使用以下命令查看容器的上次重新启动日志:

kubectl日志podname-c containername——以前的

您还可以使用以下命令来检查kubelet向apiserver发送的关于pod的生命周期事件。

kubectl描述吊舱吊舱名称

最后,您还可以向/dev/termination日志中写入最后一条消息,这将在文档中显示。

要将kubectl命令与rancher一起使用,请参阅此文档页。

最新更新