小贝子编程

在分布式TensorFlow列车上运行多个模型的步骤搞砸了

本文关键字：模型 TensorFlow 分布式列车运行 tensorflow distributed
更新时间 : 2023-09-13
英文 : running multiple models on a distributed tensorflow train steps messd

我正在尝试构建一个分布式张量流框架模板，但有一些薮猫问题让我感到困惑。

当我在脚本中使用--sync_replas=True时，这是否意味着我像在文档中一样使用Synchronous training？
为什么全球迈出worker_0.log和worker_1.log的一步不是连续递增吗？
为什么全局步骤不是以 0 开头而是像这样

1499169072.773628: Worker 0: training step 1 done (global step: 339)

training step和global step有什么关系？
从创建群集脚本中可以看到，我创建了一个独立的群集。是否可以同时在此群集上运行多个不同的模型？

可能但取决于特定的库
在分布式训练期间，可能会出现争用条件，因此全局步骤的增量和读取不是完全有序的。这很好。
这可能是因为您是从检查点加载的？
不清楚，取决于您使用的库
每个群集一个模型更易于管理。不过，可以在同一组计算机上创建多个 tf 群集。

相关内容

最新更新