我在Tensorflow2代码中使用镜像策略,如本教程所述:https://www.tensorflow.org/guide/distributed_training.我有几乎完全相同的代码,并且该设置已经运行了大约1.5年。我经常把函数调用
@tf.function
def distributed_train_step(dist_inputs):
在急切模式下,只需简单地注释@tf.function即可进行调试,迄今为止效果良好。今天早上,当我启动调试器时,我收到了以下错误消息:进程结束,退出代码为139(被信号11:SIGSEGV中断(。当我再次输入@tf.function时,一切都很好,只是处于渴望模式。我甚至重置了所有的代码,并恢复了一个旧的git提交,我知道它运行得很好。有人能解释一下为什么在急切模式下突然出现这种错误吗?我在这里有点迷路了。。
有人能解释一下为什么在急切模式下突然出现这个错误吗?
这是TF中的一个错误,可能是这次提交修复的错误。
但如果没有崩溃堆栈跟踪,很难判断。