我遇到了GTX 1080卡和nvidia-docker在这个问题中讨论的"首次运行缓慢"问题。
我使用TensorFlow从其官方pip包和基于nvidia-docker的Ubuntu 16.04基本映像的自定义docker映像构建。
我如何使TensorFlow加载(和构建JIT缓存)所有注册的CUDA内核在Dockerfile编程?(而不是使用TF_CUDA_COMPUTE_CAPABILITIES
环境变量手动构建TensorFlow)
似乎没有简单的方法来实现这一点,因为CUDA运行时隐式地从这里讨论的给定内核源中惰性地编译缺失的小屋。
通过自己重建TensorFlow解决了这个问题,使用一些辅助脚本来检测当前的CUDA/GPU配置并生成所需的TensorFlow配置参数(detect- CUDA .py, build-tensorflow.sh)。