仅在GCP内无法在www.googleapis.com找到服务器



我知道有一些类似的问题。但在我的情况下,这个问题只发生在GCP上。我们在AKS (Azure)中运行我们的服务已经快一年了,没有发生过一次故障。就在我们迁移到GCP GKE之后,我们的Python应用程序的一些请求陷入了错误:Unable to find the server at www.googleapis.com。在大多数情况下,请求是有效的,所以它看起来是随机的。我已经尝试在我的云Nat中增加TCP超时和每个VM实例的最小最小端口。我们正在使用GKE运行服务,并且我们为网络设置了云Nat网关。

GCP上是否存在可能导致问题的独占设置?

我找到了问题所在。kube-dns服务被调度到内存压力大的节点,导致kube-dns被驱逐并重新启动。在此期间,一些请求将无法解决。为了解决这个问题,我创建了一个专用于kube-system服务的节点池,然后编辑了kube-system部署,并设置了一个nodeSelector,以便它们总是被调度到安全节点。在此之后,问题已停止。

相关内容

最新更新