如何以编程方式为TensorFlow中所有可用的内核构建CUDA JIT缓存



我遇到了GTX 1080卡和nvidia-docker在这个问题中讨论的"首次运行缓慢"问题。

我使用TensorFlow从其官方pip包和基于nvidia-docker的Ubuntu 16.04基本映像的自定义docker映像构建。

我如何使TensorFlow加载(和构建JIT缓存)所有注册的CUDA内核在Dockerfile编程?(而不是使用TF_CUDA_COMPUTE_CAPABILITIES环境变量手动构建TensorFlow)

似乎没有简单的方法来实现这一点,因为CUDA运行时隐式地从这里讨论的给定内核源中惰性地编译缺失的小屋。

通过自己重建TensorFlow解决了这个问题,使用一些辅助脚本来检测当前的CUDA/GPU配置并生成所需的TensorFlow配置参数(detect- CUDA .py, build-tensorflow.sh)。

最新更新