如何从多个EC2实例获取GPU信息?



所以我有多个共享的EC2实例和一个团队使用的gpu,我想创建一个简化的过程来检查哪台机器有空闲的gpu。我使用ssh访问实例,并且可以使用

找到相关的GPU信息
nvidia-smi

然而,由于我在这方面没有经验,我如何开发一种方法来检查给定实例列表中的空闲gpu。到目前为止,我能想到的只是ssh到每个地方,并在一个地方获取和返回信息,但希望有更好的方法来做到这一点。

您可以将所有实例配置为由AWS系统管理器(SSM)管理,这将允许您使用SSM文档AWS-RunShellScript在一组实例上运行命令。SSM允许您在托管实例上远程执行shell命令,而不必像使用SSH那样手动登录和执行。这个文档应该可以让你开始。

你可能还想看看SSM自动化。

最新更新