小贝子编程

如何在多个 GPU 的 Pytorch 示例中利用 DistributedDataParallel 的世界大小参数?

本文关键字：DistributedDataParallel 世界参数 GPU Pytorch python amazon-ec2 gpu pytorch
更新时间 : 2023-09-14
英文 : How to leverage the world-size parameter for DistributedDataParallel in Pytorch example for multiple GPUs?

我正在一台g2.2xlargeAWS机器上运行这个Pytorch示例。因此，当我运行time python imageNet.py ImageNet2时，它在以下时间上运行良好：

real    3m16.253s
user    1m50.376s
sys 1m0.872s

但是，当我添加world-size参数时，它会卡住并且不执行任何内容。命令如下：time python imageNet.py --world-size 2 ImageNet2

那么，如何利用此脚本中带有world-size参数的DistributedDataParallel功能。世界大小参数只不过是分布式进程的数量。

我是否为此目的启动了另一个类似的实例？如果是，则脚本如何识别实例？我是否需要添加一些参数，例如实例的 IP 或其他参数？

世界大小参数是分布式训练中的节点数，因此如果将世界大小设置为 2，则需要在另一个节点上运行具有不同等级的相同命令。如果您只想增加单个节点上的 GPU 数量，则需要更改ngpus_per_node。查看本自述文件中的多节点示例。

相关内容