在Open MPI 4.0.3中,如何在CUDA中实现称为Ballot的操作?每个主机都知道一个布尔值(无论是GPU还是CPU主机(。我需要在每个包含a[i]==true
的主机上获得一个布尔数组,如果i
是GPU主机。每个主机上的阵列必须相同。
语言是C++(C也不错(,操作系统是Ubuntu 20.04。
您所描述的听起来像MPI_Allgather
https://www.mpich.org/static/docs/latest/www3/MPI_Allgather.html