CUDA块的网格与每个进程具有单个块的MPI进程的网格相比



假设块之间没有通信,当我从CUDA网格中的一个进程启动N个CUDA块时,与当我启动N个MPI进程(每个进程一个CUDA)时,效率是否存在差异?

一如既往:这取决于情况。

如果您不使用CUDA5,并且设备具有Hyper Q功能,则在一个过程中启动网格CUDA网格应该更高效。否则,我可能无法确定这是测试的唯一方法。

你可能喜欢看这个视频,特别是黄仁勋谈到Hyper Q 的部分

最新更新