最近我在集群上使用kubeadm alpha证书续订了证书,然后我在Kubernetes Apiserver pod中看到了如下日志:
kubectl -n kube-system logs --tail 10 kube-apiserver-master-1
I1011 07:27:25.703052 1 trace.go:116] Trace[989041745]: "List" url:/api/v1/persistentvolumeclaims (started: 2022-10-11 07:27:22.702071048 +0000 UTC m=+165036.176710383) (total time: 3.000954622s):
我收到了太多来自Alertmanager的警报(我在Kubernetes上使用Prometheus运算符(。这是一个示例警报:
FIRING
Alert: - critical
Description:
Details:
• alertname: KubeAPIErrorsHigh
• cluster: myCluster
• prometheus: monitoring/prometheus-prometheus-oper-prometheus
• resource: persistentvolumeclaims
• severity: critical
• verb: LIST
普罗米修斯操作员创建的普罗米修斯度量是:
expr: sum
by(resource, subresource, verb) (rate(apiserver_request_total{code=~"5..",job="apiserver"}[5m]))
/ sum by(resource, subresource, verb) (rate(apiserver_request_total{job="apiserver"}[5m]))
> 0.1
我现在想知道集群中是否有任何问题。
verb: LIST
,如HTTP谓词。(GET、POST、PUT、LIST等(。最有可能发生的事情是试图列出所有的PVC,这花费了太长时间或失败了。在这种情况下,是的,你需要调查原因。