分布式 TensorFlow:CreateSession 仍在等待来自 worker 的响应:/job:ps/repli



我正在尝试这里提供的示例:https://github.com/ischlag/distributed-tensorflow-example我有两台机器:一台作为服务器,另一台作为工作线程。(两台机器上的版本均为1.0.1(

我收到以下错误:

变量已初始化...I tensorflow/core/distributed_runtime/master.cc:193] CreateSession 仍在等待 worker 的响应:/job:ps/replica:0/task:0I tensorflow/core/distributed_runtime/master.cc:193] CreateSession 仍在等待 worker 的响应:/job:worker/replica:0/task:1I tensorflow/core/distributed_runtime/master.cc:193] CreateSession 仍在等待 worker 的响应:/job:worker/replica:0/task:2

有一个类似的问题,我可以通过将第三个节点作为主节点添加到ClusterSpec来解决。我的TF_CONFIG环境变量如下所示:

    TF_CONFIG = { 
        'cluster' : { 
            'master' : [ master_node01:2222 ],
            'ps' : [ps_node01:2222, ...]
            'worker' : [worker_node01:2222, ...]}
        'environment' : 'cloud',
        'task': {'type': current_task, 'index': current_index}}

我遇到了同样的问题,经过几个小时的调试,我发现问题是因为cluster_spec的顺序不正确。 task_index与 ps/worker 列表不匹配。我更改顺序后,它被修复了。

最新更新