GCP - GPU分期时间减少 - GCP - GPU staging time reduction 小贝子编程网

我有一个应用程序，它需要最小的启动时间/TTL可能与gpu连接到GCP CE中的虚拟机。为了降低成本，我的基础设施依赖于在需求增加/减少时启动和停止实例。

我在没有GPU的情况下使用自定义图像实现了低于5秒的启动时间，但是一旦我附加了GPU，时间就会变为"running"。总是超过20-30岁。

我尝试了多个不同的发行版，清除linux，预打包的Nvidia驱动程序映像，最小安装Fedora，最小化Debian，减少内核和用户空间-系统分析说我的启动时间是3秒，但启动带有GPU的虚拟机需要20-30秒的"staging&s";之前运行。

此仅在gpu附加到虚拟机时发生，并且当移除虚拟机时，虚拟机在system -analyze提到的时间内启动。它在所有发行版和引导映像中是一致的。

是否有任何软件包或文档我错过了与GPU连接的加速这个阶段时间，或者这是GCP的GPU实例的内部阶段的限制?

我将非常感谢任何帮助或建议。

如果你也遇到了这个问题，想要跟踪它的进展，我创建了一个问题报告:https://issuetracker.google.com/issues/200575905

这是GCE和GKE的内部限制，目前可以做的事情不多。
然而，我注意到启动时间随着时间的推移而下降，所以在这个问题上有一些改进。您可以通过Public Issue Tracker报告此问题以跟踪开发。

您还可以考虑使用承诺使用折扣或持续使用折扣。从长远来看，保持实例运行可能是有益的，因此可以完全避免启动问题。

GCP - GPU分期时间减少