基于CPU利用率的云运行自动缩放



Cloud Run使用什么CPU利用率百分位数作为自动缩放的条件?一分钟的窗口是100美元吗?

从下面的文档中,它提到CPU利用率超过60%可能是一个触发器。

https://cloud.google.com/run/docs/about-instance-autoscaling

现有实例在一分钟内处理请求或事件时的CPU利用率,目标是将计划的实例保持在60%的CPU利用率。

在负载测试期间,我的Cloud Run实例的P99和P95 CPU利用率高于60%,但P50远低于20%。因此,实例似乎没有被充分利用。

获取P99和P95利用率的原因仍然未知,但可能是由于垃圾收集的峰值。根据用于自动缩放的实际百分位数,必须将其降低。

我看了其他文档,但似乎没有提到确切的百分位数。https://cloud.google.com/run/docs/configuring/cpu-allocation choosing-scaling

虽然我们无法预测cloud run的自动缩放模型,因为它可能会在没有任何通知的情况下发生变化。但是,根据本文档"如果您选择CPU总是分配的"并且在没有请求的情况下执行后台活动,即使CPU使用率超过60%的阈值,Cloud Run也不会扩展。

为了更好地处理(可能的)流量,自动缩放器可以感知流量的峰值,并验证最大并发率设置,然后超额配置实例。