我正在一台g2.2xlarge
AWS机器上运行这个Pytorch示例。因此,当我运行time python imageNet.py ImageNet2
时,它在以下时间上运行良好:
real 3m16.253s
user 1m50.376s
sys 1m0.872s
但是,当我添加world-size
参数时,它会卡住并且不执行任何内容。命令如下:time python imageNet.py --world-size 2 ImageNet2
那么,如何利用此脚本中带有world-size
参数的DistributedDataParallel
功能。世界大小参数只不过是分布式进程的数量。
我是否为此目的启动了另一个类似的实例?如果是,则脚本如何识别实例?我是否需要添加一些参数,例如实例的 IP 或其他参数?
世界大小参数是分布式训练中的节点数,因此如果将世界大小设置为 2,则需要在另一个节点上运行具有不同等级的相同命令。如果您只想增加单个节点上的 GPU 数量,则需要更改ngpus_per_node
。查看本自述文件中的多节点示例。