跨多个gpu镜像多gpu模型



我有一个tensorflow(tf2.0(/keras模型,它使用多个GPU进行计算。模型中有2个分支,每个分支都在一个单独的GPU上。

我有一个4 GPU系统,我想用来训练,我想镜像这个模型,这样GPU 1和2包含一个模型,GPU 3和4包含镜像模型。

tf.distribute.MirroredStrategy会自动处理此镜像吗?或者它假设我的模型将是一个单一的GPU模型?

如果tf.distribute.MirroredStrategy无法处理此问题,有人对如何定制MirroredStrategy以实现此培训结构有什么建议吗?

这听起来很像你需要做一个自定义的训练循环。镜像策略在每个GPU上复制模型,但由于你的模型在两个GPU上都准备好了,我认为它不会正常工作。

但你可以尝试一下,并与nvidia smi核实tensorflow在做什么。

相关内容

  • 没有找到相关文章

最新更新