无法运行查询NVML的CUDA代码-关于libnvidia-ml.so的错误



最近一位同事需要使用NVML来查询设备信息,所以我下载了特斯拉开发工具包3.304.5,并将文件NVML.h复制到/usr/include。为了进行测试,我在tdk_3.304.5/nvml/example中编译了示例代码,它运行良好。

在一个周末里,系统中发生了一些变化(我无法确定发生了什么变化,我不是唯一一个可以访问机器的人),现在任何使用nvml.h的代码,如示例代码,都会失败,并出现以下错误:

Failed to initialize NVML:
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
WARNING:
You should always run with libnvidia-ml.so that is installed with your NVIDIA Display Driver. By default it's installed in /usr/lib and /usr/lib64. libnvidia-ml.so in TDK package is a stub library that is attached only for build purposes (e.g. machine that you build your application doesn't have to have Display Driver installed).
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

然而,我仍然可以运行nvidia-smi并读取有关我的K20m状态的信息,据我所知,nvidia-smi只是对nvml.h的一组调用。我收到的错误消息有些神秘,但我相信它告诉我nvidia-ml.so文件需要与我在系统上安装的特斯拉驱动程序相匹配。为了确保一切都是正确的,我重新下载了CUDA5.0并安装了驱动程序、CUDA运行时和测试文件。我确信nvidia-ml.so文件与驱动程序匹配(两者都是304.54),所以我很困惑可能出了什么问题。我可以用nvcc编译和运行测试代码,也可以运行我自己的CUDA代码,只要它不包括nvml.h。

有没有人遇到过这个错误,或者有任何想法来纠正这个问题?

$ ls -la /usr/lib/libnvidia-ml*
lrwxrwxrwx. 1 root root     17 Jul 19 10:08 /usr/lib/libnvidia-ml.so -> libnvidia-ml.so.1
lrwxrwxrwx. 1 root root     22 Jul 19 10:08 /usr/lib/libnvidia-ml.so.1 -> libnvidia-ml.so.304.54
-rwxr-xr-x. 1 root root 391872 Jul 19 10:08 /usr/lib/libnvidia-ml.so.304.54
$ ls -la /usr/lib64/libnvidia-ml*
lrwxrwxrwx. 1 root root     17 Jul 19 10:08 /usr/lib64/libnvidia-ml.so -> libnvidia-ml.so.1
lrwxrwxrwx. 1 root root     22 Jul 19 10:08 /usr/lib64/libnvidia-ml.so.1 -> libnvidia-ml.so.304.54
-rwxr-xr-x. 1 root root 394792 Jul 19 10:08 /usr/lib64/libnvidia-ml.so.304.54
$ cat /proc/driver/nvidia/version 
NVRM version: NVIDIA UNIX x86_64 Kernel Module  304.54  Sat Sep 29 00:05:49 PDT 2012
GCC version:  gcc version 4.4.7 20120313 (Red Hat 4.4.7-3) (GCC) 
$ nvcc -V
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2012 NVIDIA Corporation
Built on Fri_Sep_21_17:28:58_PDT_2012
Cuda compilation tools, release 5.0, V0.2.1221
$ whereis nvml.h
nvml: /usr/include/nvml.h
$ ldd example
        linux-vdso.so.1 =>  (0x00007fff2da66000)
        libnvidia-ml.so.1 => /usr/lib64/libnvidia-ml.so.1 (0x00007f33ff6db000)
        libc.so.6 => /lib64/libc.so.6 (0x000000300e400000)
        libpthread.so.0 => /lib64/libpthread.so.0 (0x000000300ec00000)
        libdl.so.2 => /lib64/libdl.so.2 (0x000000300e800000)
        /lib64/ld-linux-x86-64.so.2 (0x000000300e000000)

编辑:解决方案是删除libnvidia-ml.so的所有额外实例。出于某种原因,有很多实例。

$ sudo find / -name 'libnvidia-ml*'
/usr/lib/libnvidia-ml.so.304.54
/usr/lib/libnvidia-ml.so
/usr/lib/libnvidia-ml.so.1
/usr/opt/lib/libnvidia-ml.so
/usr/opt/lib/libnvidia-ml.so.1
/usr/opt/lib64/libnvidia-ml.so
/usr/opt/lib64/libnvidia-ml.so.1
/usr/opt/nvml/lib/libnvidia-ml.so
/usr/opt/nvml/lib/libnvidia-ml.so.1
/usr/opt/nvml/lib64/libnvidia-ml.so
/usr/opt/nvml/lib64/libnvidia-ml.so.1
/usr/lib64/libnvidia-ml.so.304.54
/usr/lib64/libnvidia-ml.so
/usr/lib64/libnvidia-ml.so.1
/lib/libnvidia-ml.so.old
/lib/libnvidia-ml.so.1

您收到此错误是因为尝试使用nvml的应用程序正在加载位于以下位置的存根库:

...tdk_install_path/lib64/libnvidia-ml.so

而不是中的

/usr/lib64/libnvidia-ml.so

当我将存根库路径添加到LD_LIBRARY_PATH环境变量时,我能够重现您的错误。因此,如果有人将tdk发行版附带的存根库的路径添加到LD_LIBRARY_PATH环境变量中,这可能是错误的一个来源,但这可能不是发生这种情况的唯一方法。如果有人以一种不寻常的方式将存根库复制到某个系统路径,这也可能是一个问题。

您需要尝试弄清楚为什么您的系统加载存根库来代替/usr/lib64中正确的存根库。或者,出于发现的目的,您可以尝试删除系统中任何位置的存根库的所有实例(将正确的库留在/usr/lib/usr/lib64中),并且您应该能够观察到正确的行为。

我在GTX 1070上使用windows 10以这种方式解决了这个问题:转到设备管理器,选择有问题的GPU,禁用GPU并重新启用。

我在zCash的EWBF Cuda Miner中遇到了相同或类似的问题。

以下是一种自动实现Pro7ech对WIN10:的回答(对我有效)的方法

如果您还没有WDK for Windows 10,请安装它:这将使您能够使用devcon.exe,它允许通过批处理脚本操作设备:https://learn.microsoft.com/en-us/windows-hardware/drivers/download-the-wdk

如果您没有使用C++工作负载进行桌面开发的visual studio,您可能还需要Windows SDK:https://developer.microsoft.com/en-us/windows/downloads/windows-10-sdk

为了简化操作,您可能需要将安装路径添加到path环境变量中:https://www.howtogeek.com/118594/how-to-edit-your-system-path-for-easy-command-line-access/

Devcon.exe是为我安装的:

C:Program Files (x86)Windows Kits10Toolsx64

因此,现在在cmd.exe提示符中运行此命令或类似命令以获取设备id:

devcon findall * | find /i "nvidia"

这是我的样子:

C:UsersSoenhay>devcon findall * | find /i "nvidia"
HDAUDIOFUNC_01&VEN_10DE&DEV_0083&SUBSYS_38426674&REV_10015&1C277AD4&0&0001: NVIDIA High Definition Audio
SWDMMDEVAPI{0.0.0.00000000}.{574980C3-9747-42EF-A78C-4C304E070B81}: SAMSUNG (NVIDIA High Definition Audio)
ROOTUNNAMED_DEVICE000                                    : NVIDIA Virtual Audio Device (Wave Extensible) (WDM)
PCIVEN_10DE&DEV_1B81&SUBSYS_66743842&REV_A14&1F1337ch33s3&0&0000: NVIDIA GeForce GTX 1070

从中我看到我的图形设备id是:

PCIVEN_10DE&DEV_1B81&SUBSYS_66743842&REV_A14&1F1337ch33s3&0&0000

因此,我创建了一个带有以下内容的批处理文件来禁用和重新启用驱动程序:

devcon disable "@PCIVEN_10DE&DEV_1B81&SUBSYS_66743842&REV_A14&1F1337ch33s3&0&0000"
devcon enable "@PCIVEN_10DE&DEV_1B81&SUBSYS_66743842&REV_A14&1F1337ch33s3&0&0000"

现在,当我在启动矿工时遇到NVML错误时,我只运行了这个批处理文件,它就修复了它。你也可以每次都在start.bat文件的开头添加这两行,但我发现现在每次重新启动矿工时,错误并不总是发生。


参考文献:

后的超级用户

devcon命令

devcon示例

找不到匹配的设备。

注意:命令应该在设备id的开头有@符号。批处理脚本应以管理员身份运行。

我也遇到过同样的错误。

找到了一个解决方案是运行命令:

nvidia-uninstall