当本地 SSD 在 Google Cloud Platform 计算引擎实例中发生故障时会发生什么情况?



当附加到计算引擎实例的多个本地 SSD 中的一个出现硬件故障时会发生什么情况?具体说来:

  1. 谷歌云平台会自动检测到故障吗?
  2. 是否有通知,例如通过电子邮件?
  3. 更换驱动器需要多长时间?
  4. VM 是否已停止,并在替换后重新启动?或者,它是热插拔吗?
  5. 显然,该 SSD 上的数据会丢失,但是,连接到同一虚拟机的其他 SSD 上的数据会发生什么情况?

编辑:我知道本地 SSD 的"短暂"性质,并计划在主要区域中跨不同区域的多台计算机上复制我的数据,并至少一次复制到完全不同的区域。我计划使用的数据库是"数据中心/机架感知"。我特别在寻找有关Google Cloud Platform如何处理本地SSD中的硬件故障的文档/信息。

您可能希望改用永久磁盘,因为您的用例可能不适用:

添加本地 SSD 时如下所示:

本地 SSD 仅适用于缓存、处理空间或低价值数据等临时存储。如果将重要数据存储在本地 SSD 设备中,则还必须将相同的数据存储在持久存储选项中。

  1. 这取决于 - 块级故障就是这样,直接传递给来宾。因此,您可能会在 dmesg 或类似内容中看到读取错误。如果整个设备出现故障,则会在实例的云日志记录日志中收到 hostError。接下来会发生什么取决于您的维护策略。
  2. 从用户的角度来看,驱动器不会被替换 - 您只能获得一个新实例。(当然,谷歌在内部更换损坏的硬件,但这不会暴露给客户(

要点 4. 和 5. 有点难以回答 - 当 hostError 发生自动重新启动时,您有 60 分钟的恢复超时。但是,这可能意味着在实践中,您的实例在尝试恢复损坏的本地 SSD 时花费 60 分钟处于"正在运行"但未启动状态,然后最终失败并使用空白本地 SSD 启动。

总的来说,我建议您将实例视为故障域,而不是单个磁盘,因为任何类型的问题都可能导致实例的 hostError 而不是部分故障。

我想澄清#5。

如果您的 VM 遇到主机错误,Google 文档指出:

如果主机系统遇到主机错误,计算引擎会发出 尽最大努力重新连接到 VM 并保留本地 SSD 数据, 但可能不会成功。如果尝试成功,VM 将重新启动 自然而然。但是,如果尝试重新连接失败,VM 在没有数据的情况下重新启动。

这意味着您不能保证取回数据。这并不有趣 相应地计划并将数据存储在更可靠的解决方案中,例如永久磁盘或存储桶。

相关内容

最新更新