我一直在尝试使用 pytorch 编写分布式应用程序。我一直在这里遵循教程。在那里,我正在使用"MPI后端"选项。据此,我需要按照基本步骤安装 pytorch,然后安装 openmpi 作为conda install -c conda-forge openmpi
不幸的是,每当我尝试使用 mpirunmpiexec -n 2 python ptdist.py
运行脚本时,我都会收到以下错误RuntimeError: Distributed package doesn't have MPI built in
。我相信这是因为 python 中import ProcessGroupMPI
代码中的错误而发生的。
我尝试从他们的源代码和sudo apt-get install python-mpi4py
安装 openmpi,但仍然面临同样的错误。
我也试过pip install mpi4py
但这也没有帮助
有谁知道问题出在哪里?
来自 https://medium.com/@esaliya/pytorch-distributed-with-mpi-acb84b3ae5fd
MPI 后端虽然受支持,但除非您从其源代码编译 PyTorch,否则不可用
这表明您应该首先安装您喜欢的 MPI 库,并可能mpi4py
构建在其之上,然后最终从源代码构建pytorch
。