当本地 SSD 在 Google Cloud Platform 计算引擎实例中发生故障时会发生什么情况?

当附加到计算引擎实例的多个本地 SSD 中的一个出现硬件故障时会发生什么情况？具体说来：

编辑：我知道本地 SSD 的"短暂"性质，并计划在主要区域中跨不同区域的多台计算机上复制我的数据，并至少一次复制到完全不同的区域。我计划使用的数据库是"数据中心/机架感知"。我特别在寻找有关Google Cloud Platform如何处理本地SSD中的硬件故障的文档/信息。

您可能希望改用永久磁盘，因为您的用例可能不适用：

添加本地 SSD 时如下所示：

本地 SSD 仅适用于缓存、处理空间或低价值数据等临时存储。如果将重要数据存储在本地 SSD 设备中，则还必须将相同的数据存储在持久存储选项中。

是
这取决于 - 块级故障就是这样，直接传递给来宾。因此，您可能会在 dmesg 或类似内容中看到读取错误。如果整个设备出现故障，则会在实例的云日志记录日志中收到 hostError。接下来会发生什么取决于您的维护策略。
从用户的角度来看，驱动器不会被替换 - 您只能获得一个新实例。(当然，谷歌在内部更换损坏的硬件，但这不会暴露给客户(

要点 4. 和 5. 有点难以回答 - 当 hostError 发生自动重新启动时，您有 60 分钟的恢复超时。但是，这可能意味着在实践中，您的实例在尝试恢复损坏的本地 SSD 时花费 60 分钟处于"正在运行"但未启动状态，然后最终失败并使用空白本地 SSD 启动。

总的来说，我建议您将实例视为故障域，而不是单个磁盘，因为任何类型的问题都可能导致实例的 hostError 而不是部分故障。

我想澄清#5。

如果您的 VM 遇到主机错误，Google 文档指出：

如果主机系统遇到主机错误，计算引擎会发出尽最大努力重新连接到 VM 并保留本地 SSD 数据，但可能不会成功。如果尝试成功，VM 将重新启动自然而然。但是，如果尝试重新连接失败，VM 在没有数据的情况下重新启动。

这意味着您不能保证取回数据。这并不有趣相应地计划并将数据存储在更可靠的解决方案中，例如永久磁盘或存储桶。

相关内容