Google VM(Linux)上的Pytorch无法识别GPU



我使用此可用映像创建了一个Google VM实例:

C1-深度学习-通用-CU100-20191226

描述

Google,深度学习图像:基础,m39(带有CUDA 10.0(,基于Debian的映像,带有CUDA 10.0

然后,我将 Anaconda 安装到此 VM 上,然后按照 Pytorch 网站的建议使用以下命令行安装 Pytorch:

conda install pytorch torchvision cudatoolkit=10.1 -c pytorch

(这对应于Linux,Python 3.7,CUDA 10.1(

在 Python 中,我运行了以下代码来检查 GPU 检测:

import torch
torch.cuda.is_available()
False

从 nvidia-smi 工具中,即使在代码主体运行训练之后,这也是结果:

(base) redexces.bf@tensorflow-1x-2x:~$ nvidia-smi
Thu Jan  2 01:33:10 2020
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 410.104      Driver Version: 410.104      CUDA Version: 10.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla P4            Off  | 00000000:00:04.0 Off |                    0 |
| N/A   37C    P0    22W /  75W |      0MiB /  7611MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

显然,没有正在运行的进程,也没有分配任何内存。

这个问题似乎只与 Pytorch 有关;同一个虚拟机还在一个单独的 conda 环境中安装了 Tensorflow-gpu,该环境可以识别 GPU 并按照我的预期使用它。

我错过了什么碎片吗? 同样,相同的 CUDA 驱动程序和图像对于张量流工作正常。

我能够解决这个问题。 不是计算机科学的人,我认为这可能是 nvidia 驱动程序兼容性问题。 由于 Pytorch 是使用 CUDA 10.1 驱动程序构建的,并且深度学习映像安装了 CUDA 10.0,因此我创建了另一个 VM 实例,但这次我没有使用前面提到的公共映像,而是使用 gcloud 命令行使用 cu10.1 驱动程序指定深度学习。 这使得一切都按预期工作。

最新更新