GCP - GPU分期时间减少



我有一个应用程序,它需要最小的启动时间/TTL可能与gpu连接到GCP CE中的虚拟机。为了降低成本,我的基础设施依赖于在需求增加/减少时启动和停止实例。

我在没有GPU的情况下使用自定义图像实现了低于5秒的启动时间,但是一旦我附加了GPU,时间就会变为"running"。总是超过20-30岁。

我尝试了多个不同的发行版,清除linux,预打包的Nvidia驱动程序映像,最小安装Fedora,最小化Debian,减少内核和用户空间-系统分析说我的启动时间是3秒,但启动带有GPU的虚拟机需要20-30秒的"staging&s";之前运行。

仅在gpu附加到虚拟机时发生,并且当移除虚拟机时,虚拟机在system -analyze提到的时间内启动。它在所有发行版和引导映像中是一致的。

是否有任何软件包或文档我错过了与GPU连接的加速这个阶段时间,或者这是GCP的GPU实例的内部阶段的限制?

我将非常感谢任何帮助或建议。

如果你也遇到了这个问题,想要跟踪它的进展,我创建了一个问题报告:https://issuetracker.google.com/issues/200575905

这是GCE和GKE的内部限制,目前可以做的事情不多。
然而,我注意到启动时间随着时间的推移而下降,所以在这个问题上有一些改进。您可以通过Public Issue Tracker报告此问题以跟踪开发。

您还可以考虑使用承诺使用折扣或持续使用折扣。从长远来看,保持实例运行可能是有益的,因此可以完全避免启动问题。

相关内容

  • 没有找到相关文章

最新更新