显示 slurm 作业的 GPU 内存使用情况和利用率



我正在使用slurm来访问GPU资源。是否可以显示正在运行的 slurm 作业的 GPU 使用情况?就像在普通的交互式 shell 中使用nvidia-smi一样。

您可以使用SSH 登录作业的节点。然后使用nvidia-smi。它对我有用。 例如,我使用 squeue 检查我的作业 xxxxxx 当前是否在节点 x-x-x 上运行。然后我使用 ssh x-x-x 访问该节点。之后,您可以使用nvidia-smi来检查GPU的使用情况。

我认为大多数用户都没有计算节点的权限,我的意思是ssh node-1

这是污蔑的方式,

  1. 检查您的作业ID:
squeue -u <your_username>

你会得到这个的jobid。

  1. 使用 Nvidia-SMI 在 jobid 中运行
srun --jobid=123456 nvidia-smi

我建议尝试在 jupyter 中手动启动您的应用程序并在 jupyter 中访问终端 shell。

最新更新