错误:tensorflow/contrib/nccl/kernels/nccl_manager.cc:273检查失败:r



我正在尝试使用MirrorStrategy选项和tensorflow估计器API运行分布式tensorflow代码,并得到标题中提到的错误。我正在使用tensorflow gpu 1.9.0。我正在关注分布式tensorflow培训的链接。

并得到以下提到的警告和错误:您应该始终使用libnvidia-ml.运行,以便与NVIDIA显示驱动程序一起安装。默认情况下,它安装在/usr/lib和/usr/lib64中。GDK包中的libnvidia-ml.so是一个存根库,它仅用于构建目的(例如,构建应用程序的机器不必安装显示驱动程序(。

很可能您已经获得了要编译的存根库,并且您的LD_LIBRARY_PATH不包括运行库的路径。

检查库路径中的"/usr/local/cuda/lib64/stubs"或类似内容。如果它存在,您只需要在库路径中将正确的位置放在它之前。

根据您安装的驱动程序版本,您可以在"/usr/lib/nvidia-384"或384以外的某个数字下找到与您的nvidia驱动程序版本匹配的libnvidia-ml.so文件。

您可以在.bashrc文件中添加一行,如下所示:

export LD_LIBRARY_PATH=/usr/lib/nvidia-(Your driver number here):$LD_LIBRARY_PATH

最新更新