重新启动后,AWS EC2实例失去GPU支持



在星期二重新启动一个实例,我首先遇到了在使用Ubuntu Deep Leach Ami上失去GPU支持的问题。

我在两天内进行了三次测试,并且一个同样的问题,所以我想这是一个AWS错误。虽然也许有人知道如何更好地调试。

基本上,关闭并重新启动后,实例不再将NVIDIA模块加载到内核中。此外,根据DMESG的说法,似乎有不同的内核。所有这些都在没有我积极引起的情况下发生。

这是使用新实例和无自定义代码重现问题的步骤。我在爱尔兰(EU-West-1)工作,该实例是在欧盟-West-West-1a中启动的:

  • 启动了一个带有"深度学习AMI(Ubuntu)版本的实例21.2(AMI-0E9085A8D461C2D01)
  • 实例类型:p2.xlarge,所有默认值
  • 登录,只运行以下四个命令:
ubuntu@...:~$ lsmod | grep nvidia
nvidia              16592896  0
ipmi_msghandler        49152  1 nvidia
dmesg | less
...
[    0.000000] Linux version 4.4.0-1075-aws (buildd@lgw01-amd64-035) (gcc version 5.4.0 20160609 (Ubuntu 5.4.0-6ubuntu1~16.04.10) ) #85-Ubuntu SMP Thu Jan 17 17:15:12 UTC 2019 (Ubuntu 4.4.0-1075.85-aws 4.4.167)
[    0.000000] Command line: BOOT_IMAGE=/boot/vmlinuz-4.4.0-1075-aws root=UUID=96950bba-70e8-4a4b-9d78-d2bc1c767e04 ro console=tty1 console=ttyS0 nvme.io_timeout=4294967295
...
ubuntu@...:~$ nvidia-smi
Tue Mar 19 16:41:53 2019
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 410.79       Driver Version: 410.79       CUDA Version: 10.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla K80           On   | 00000000:00:1E.0 Off |                    0 |
| N/A   42C    P8    32W / 149W |      0MiB / 11441MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+
ubuntu@...:~$ sudo shutdown now
  • 该实例不会立即关闭,也许它正在运行更新,但是我没有积极触发。
  • 国家显示"停止"后,通过AWS管理控制台再次开始实例
  • 运行前三个命令:
ubuntu@...:~$ lsmod | grep nvidia
(no output)
dmesg | less
...
[    0.000000] Linux version 4.4.0-1077-aws (buildd@lcy01-amd64-021) (gcc version 5.4.0 20160609 (Ubuntu 5.4.0-6ubuntu1~16.04.10) ) #87-Ubuntu SMP Wed Mar 6 00:03:05 UTC 2019 (Ubuntu 4.4.0-1077.87-aws 4.4.170)
[    0.000000] Command line: BOOT_IMAGE=/boot/vmlinuz-4.4.0-1077-aws root=UUID=96950bba-70e8-4a4b-9d78-d2bc1c767e04 ro console=tty1 console=ttyS0 nvme.io_timeout=4294967295
...
ubuntu@...:~$ nvidia-smi
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

我如何强制使用内核4.4.0-1075-Aws启动?由于它是HVM虚拟化,因此我不能直接在对话框中选择一个内核。

在4.4.0-107x-aws内核上构建较旧的nvidia驱动程序似乎存在问题。您可以安装较新的NVIDIA驱动程序,该驱动程序应与当前内核合作:

wget http://us.download.nvidia.com/tesla/410.104/NVIDIA-Linux-x86_64-410.104.run
sudo sh ./NVIDIA-Linux-x86_64-410.104.run --no-drm --disable-nouveau --dkms --silent --install-libglvnd 

根据AWS代表的说法,司机在2019年3月21日的深度学习AMI中进行了更新。

我经历了同样的问题,它帮助我做

sudo apt-get install nvidia-cuda-toolkit
sudo reboot

祝你好运!

最新更新