Tensorflow GPU 应用程序导致 Jupyter 笔记本内核崩溃



我们使用多个Jupyter笔记本在GPU上运行Tensorflow应用程序。 每隔一段时间,其中一个运行就会使笔记本崩溃,并发出简单的通知"内核已崩溃..."。

当我们把代码放到python.py文件中时,stderr输出是

F tensorflow/core/kernels/conv_ops_3d.cc:369] Check failed:   stream->parent()->GetConvolveAlgorithms(&algorithms)
Aborted

在另一次运行中,stderr报告说:

F tensorflow/core/common_runtime/gpu/gpu_util.cc:296] GPU->CPU Memcpy failed

问题是张量流应用程序占用了大量内存。 在Linux中,你可以运行top看看发生了什么。 在我们的机器上,我们看到每个张量流过程都在抢0.55t

当您在 Jupyter 笔记本中运行该进程并且不关闭笔记本时,笔记本不会释放内存。 在某些时候,您将运行一个无法访问内存的进程,并且它将死亡。 如果你在笔记本中运行,它只会告诉你内核已经死了。

谁能帮忙?

一个建议是在导入 tensorflow 之前放置以下代码片段:

import os
os.environ["CUDA_VISIBLE_DEVICES"]="-1"

在@尼古拉斯评论后添加

是的,这会禁用 GPU! 这不是想要的。

最新更新