我正在构建一个需要同时测试GPU可用性的映像。GPU 容器运行良好:
$ docker run --rm --runtime=nvidia nvidia/cuda:9.2-devel-ubuntu18.04 nvidia-smi
Wed Aug 7 07:53:25 2019
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 396.54 Driver Version: 396.54 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 TITAN X (Pascal) Off | 00000000:04:00.0 Off | N/A |
| 24% 43C P8 17W / 250W | 2607MiB / 12196MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
+-----------------------------------------------------------------------------+
但在使用 GPU 构建时失败:
$ cat Dockerfile
FROM nvidia/cuda:9.2-devel-ubuntu18.04
RUN nvidia-smi
# RUN build something
# RUN tests require GPU
$ docker build .
Sending build context to Docker daemon 2.048kB
Step 1/2 : FROM nvidia/cuda:9.2-devel-ubuntu18.04
---> cdf6d16df818
Step 2/2 : RUN nvidia-smi
---> Running in 88f12f9dd7a5
/bin/sh: 1: nvidia-smi: not found
The command '/bin/sh -c nvidia-smi' returned a non-zero code: 127
我是 docker 的新手,但我认为我们在构建映像时需要进行健全性检查。那么如何使用 cuda 运行时构建 docker 镜像呢?
使用--default-runtime=nvidia
配置 docker 守护进程解决了这个问题。
请参阅此维基以获取更多信息。
今天 (27.03.2023( 我在使用 cuda 运行时构建 docker 映像时遇到了另一个问题。
尽管配置了正确的 nvidia 运行时,但我的docker build .
和docker-compose
命令无法访问 CUDA。
我通过以下方式禁用新的 docker 构建工具包解决了它:
DOCKER_BUILDKIT=0 docker build .
或
DOCKER_BUILDKIT=0 docker-compose build
您还可以通过添加以下内容来修改/etc/docker/daemon.json
,从而永久禁用新的 docker 构建工具包:
{
"features": {
"buildkit" : true
}
}
看来新的 docker 构建工具包在处理 CUDA 和 GPU 方面存在一些问题,因此如果您使用它,请检查我的解决方案。
也许是因为您在 Dockerfile 上使用"RUN"命令。我会尝试"CMD"(请参阅此命令的文档(或"入口点",因为使用参数调用"docker run"。 我认为"RUN"命令适用于您需要在容器可用之前执行的先前作业,而不是带有输出和其他内容的进程。
祝你好运,