在分布式TensorFlow列车上运行多个模型的步骤搞砸了



我正在尝试构建一个分布式张量流框架模板,但有一些薮猫问题让我感到困惑。

  1. 当我在脚本中使用--sync_replas=True时,这是否意味着我像在文档中一样使用Synchronous training
  2. 为什么全球迈出worker_0.log和worker_1.log的一步 不是连续递增吗?
  3. 为什么全局步骤不是以 0 开头而是像这样

1499169072.773628: Worker 0: training step 1 done (global step: 339)

  1. training stepglobal step有什么关系?

  2. 从创建群集脚本中可以看到,我创建了一个独立的群集。是否可以同时在此群集上运行多个不同的模型?

  1. 可能但取决于特定的库
  2. 在分布式训练期间,可能会出现争用条件,因此全局步骤的增量和读取不是完全有序的。这很好。
  3. 这可能是因为您是从检查点加载的?
  4. 不清楚,取决于您使用的库
  5. 每个群集一个模型更易于管理。不过,可以在同一组计算机上创建多个 tf 群集。

最新更新