我有一个tensorflow(tf2.0(/keras模型,它使用多个GPU进行计算。模型中有2个分支,每个分支都在一个单独的GPU上。
我有一个4 GPU系统,我想用来训练,我想镜像这个模型,这样GPU 1和2包含一个模型,GPU 3和4包含镜像模型。
tf.distribute.MirroredStrategy会自动处理此镜像吗?或者它假设我的模型将是一个单一的GPU模型?
如果tf.distribute.MirroredStrategy
无法处理此问题,有人对如何定制MirroredStrategy
以实现此培训结构有什么建议吗?
这听起来很像你需要做一个自定义的训练循环。镜像策略在每个GPU上复制模型,但由于你的模型在两个GPU上都准备好了,我认为它不会正常工作。
但你可以尝试一下,并与nvidia smi核实tensorflow在做什么。