如何在多个 GPU 的 Pytorch 示例中利用 DistributedDataParallel 的世界大小参数?



我正在一台g2.2xlargeAWS机器上运行这个Pytorch示例。因此,当我运行time python imageNet.py ImageNet2时,它在以下时间上运行良好:

real    3m16.253s
user    1m50.376s
sys 1m0.872s

但是,当我添加world-size参数时,它会卡住并且不执行任何内容。命令如下:time python imageNet.py --world-size 2 ImageNet2

那么,如何利用此脚本中带有world-size参数的DistributedDataParallel功能。世界大小参数只不过是分布式进程的数量

我是否为此目的启动了另一个类似的实例?如果是,则脚本如何识别实例?我是否需要添加一些参数,例如实例的 IP 或其他参数?

世界大小参数是分布式训练中的节点数,因此如果将世界大小设置为 2,则需要在另一个节点上运行具有不同等级的相同命令。如果您只想增加单个节点上的 GPU 数量,则需要更改ngpus_per_node。查看本自述文件中的多节点示例。

相关内容

  • 没有找到相关文章

最新更新