今天早上,我们在Google CloudSQL for PostgreSQL High Available(HA(集群上经历了5分钟多一点的停机时间。这是在 Google 要求您提供的维护期内。
谷歌很清楚为什么他们需要维护窗口(见这里(。令我们印象深刻的是停机时间的持续时间,并且没有执行故障转移。
文档明确指出,维护是在实例上执行的(而不是在整个集群上执行的(。那么,为什么回退没有像这里记录的那样执行呢?他们说,这可能需要长达60秒的时间。但花了5分钟多一点。
再说一遍;这是一个定期的维护。如果您预期,则不必进行自动故障转移。
我们是否误解了文档,我们是否有不切实际的期望,或者我们是否错误地配置了我们的应用程序?
如您所引用的文档中所述,它仅适用于实例或区域故障。换句话说,只有当实例失败(变得无响应(或 MySQL/PostgreSQL 实例所在的区域中存在导致无法访问实例的问题时,Cloud SQL 才会自动切换到从备用实例提供数据。
此外,在同一文档中指出主实例必须处于正常运行状态,这在要求部分中有所提及。