使用 cuda 运行时构建 docker 映像



我正在构建一个需要同时测试GPU可用性的映像。GPU 容器运行良好:

$ docker run --rm --runtime=nvidia nvidia/cuda:9.2-devel-ubuntu18.04 nvidia-smi
Wed Aug  7 07:53:25 2019
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 396.54                 Driver Version: 396.54                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  TITAN X (Pascal)    Off  | 00000000:04:00.0 Off |                  N/A |
| 24%   43C    P8    17W / 250W |   2607MiB / 12196MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
+-----------------------------------------------------------------------------+

但在使用 GPU 构建时失败:

$ cat Dockerfile
FROM nvidia/cuda:9.2-devel-ubuntu18.04
RUN nvidia-smi
# RUN build something
# RUN tests require GPU
$ docker build .
Sending build context to Docker daemon  2.048kB
Step 1/2 : FROM nvidia/cuda:9.2-devel-ubuntu18.04
---> cdf6d16df818
Step 2/2 : RUN nvidia-smi
---> Running in 88f12f9dd7a5
/bin/sh: 1: nvidia-smi: not found
The command '/bin/sh -c nvidia-smi' returned a non-zero code: 127

我是 docker 的新手,但我认为我们在构建映像时需要进行健全性检查。那么如何使用 cuda 运行时构建 docker 镜像呢?

使用--default-runtime=nvidia配置 docker 守护进程解决了这个问题。

请参阅此维基以获取更多信息。

今天 (27.03.2023( 我在使用 cuda 运行时构建 docker 映像时遇到了另一个问题。

尽管配置了正确的 nvidia 运行时,但我的docker build .docker-compose命令无法访问 CUDA。

我通过以下方式禁用新的 docker 构建工具包解决了它:

DOCKER_BUILDKIT=0 docker build .

DOCKER_BUILDKIT=0 docker-compose build

您还可以通过添加以下内容来修改/etc/docker/daemon.json,从而永久禁用新的 docker 构建工具包:

{
"features": {
"buildkit" : true
}
} 

看来新的 docker 构建工具包在处理 CUDA 和 GPU 方面存在一些问题,因此如果您使用它,请检查我的解决方案。

也许是因为您在 Dockerfile 上使用"RUN"命令。我会尝试"CMD"(请参阅此命令的文档(或"入口点",因为使用参数调用"docker run"。 我认为"RUN"命令适用于您需要在容器可用之前执行的先前作业,而不是带有输出和其他内容的进程。

祝你好运,

最新更新