在推理过程中,当加载模型时,Cuda 会抛出内部错误:GPU 上的 CUDA 运行时隐式初始化失败。状态:内存不足。
我正在一台具有 6GB VRAM 的机器上执行推理。几天前,机器能够执行任务,但现在我经常收到这些消息。重新启动设备有时确实有帮助,但不是可行的解决方案。我已经通过 nvidia-smi 进行了检查,但它也只显示使用了大约 500 MB 的 VRam,并且当 tensorflow 尝试加载模型时,我无法看到内存使用量的任何峰值。
我目前正在使用张量流 1.14.0 和 python 3.7.4
我在远程服务器上使用 Tensorflow 2.3.0。我的代码工作正常,但突然服务器与网络断开连接,我的训练停止了。当我重新运行代码时,我遇到了与您相同的问题。所以我想这个问题与GPU忙于不再存在的东西有关。按照评论所说清除会话足以解决问题(我也相信重新启动机器也可以解决问题,但我没有机会尝试此解决方案(。 对于 TensorFlow 2.3 使用tf.keras.backend.clear_session()
它解决了问题