Tensorflow Hanging on Google Compute Engine Using nohup



我正在尝试运行一个TensorFlow模型,我估计大约需要11个小时。因此,我想使用 nohup,这样我就可以退出我的终端,保持进程运行。我使用以下命令来执行此操作:

nohup python3 trainModel.py > log.txt &

我的模型似乎正常运行,但挂断了输出的最后一条消息是:

2020-01-22 19:06:24.669183: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1697] Adding visible gpu devices: 0

我的模型输出它是正常的,但是当我不使用nohup时,其余代码仍然会执行。我需要做什么才能让这个命令像不使用nohup时一样运行?

你能发送执行的退出状态代码吗? 回声$?

这将有助于准确了解错误

此外,您可以尝试将标准错误输出发送到日志.txt文件,例如

Nohup Python3 trainModel.py 2> log.txt &

标准输出将被重定向到nohup文件和日志.txt将包含标准输出错误

我希望这有帮助

尝试在执行中使用绝对路径而不是相对路径

最新更新