所以我有多个共享的EC2实例和一个团队使用的gpu,我想创建一个简化的过程来检查哪台机器有空闲的gpu。我使用ssh访问实例,并且可以使用
找到相关的GPU信息nvidia-smi
然而,由于我在这方面没有经验,我如何开发一种方法来检查给定实例列表中的空闲gpu。到目前为止,我能想到的只是ssh到每个地方,并在一个地方获取和返回信息,但希望有更好的方法来做到这一点。
您可以将所有实例配置为由AWS系统管理器(SSM)管理,这将允许您使用SSM文档AWS-RunShellScript
在一组实例上运行命令。SSM允许您在托管实例上远程执行shell命令,而不必像使用SSH那样手动登录和执行。这个文档应该可以让你开始。
你可能还想看看SSM自动化。