mpi4py中的共享内存

我使用MPI (mpi4py)脚本(在单个节点上)，它可以处理非常大的对象。为了让所有进程都可以访问对象，我通过comm.bcast()分发它。这将对象复制到所有进程，并消耗大量内存，特别是在复制过程中。因此，我想分享一些类似指针的东西，而不是对象本身。我发现memoryview中的一些特性对于促进进程内对象的工作很有用。对象的实际内存地址也可以通过memoryview对象字符串表示访问，并且可以像这样分布:

from mpi4py import MPI
comm = MPI.COMM_WORLD
rank = comm.Get_rank()
if rank:
    content_pointer = comm.bcast(root = 0)
    print(rank, content_pointer)
else:
    content = ''.join(['a' for i in range(100000000)]).encode()
    mv = memoryview(content)
    print(mv)
    comm.bcast(str(mv).split()[-1][: -1], root = 0)

这个打印

<memory at 0x7f362a405048>
1 0x7f362a405048
2 0x7f362a405048
...

这就是为什么我相信一定有一种方法可以在另一个过程中重构对象。但是，我在文档中找不到关于如何做到这一点的线索。

简而言之，我的问题是:是否有可能在mpi4py中同一节点上的进程之间共享对象?

下面是一个使用MPI共享内存的简单示例，对https://groups.google.com/d/msg/mpi4py/Fme1n9niNwQ/lk3VJ54WAQAJ

进行了稍微修改

您可以使用:mpirun -n 2 python3 shared_memory_test.py(假设您将其保存为shared_memory_test.py)

from mpi4py import MPI 
import numpy as np 
comm = MPI.COMM_WORLD 
# create a shared array of size 1000 elements of type double
size = 1000 
itemsize = MPI.DOUBLE.Get_size() 
if comm.Get_rank() == 0: 
    nbytes = size * itemsize 
else: 
    nbytes = 0
# on rank 0, create the shared block
# on rank 1 get a handle to it (known as a window in MPI speak)
win = MPI.Win.Allocate_shared(nbytes, itemsize, comm=comm) 
# create a numpy array whose data points to the shared mem
buf, itemsize = win.Shared_query(0) 
assert itemsize == MPI.DOUBLE.Get_size() 
ary = np.ndarray(buffer=buf, dtype='d', shape=(size,)) 
# in process rank 1:
# write the numbers 0.0,1.0,..,4.0 to the first 5 elements of the array
if comm.rank == 1: 
    ary[:5] = np.arange(5)
# wait in process rank 0 until process 1 has written to the array
comm.Barrier() 
# check that the array is actually shared and process 0 can see
# the changes made in the array by process 1
if comm.rank == 0: 
    print(ary[:10])

应该输出这个(从进程等级0打印):

[0. 1. 2. 3. 4. 0. 0. 0. 0. 0.]

我真的不太了解mpi4py，但从MPI的角度来看，这应该是不可能的。MPI代表消息传递接口，这意味着:在进程之间传递消息。您可以尝试使用MPI单向通信来类似于全局可访问的内存，但否则进程内存对其他进程不可用。

如果您需要依赖大块共享内存，则需要利用OpenMP或线程之类的东西，它们完全可以在单个节点上使用。使用MPI和一些共享内存并行化的混合并行化将允许每个节点有一个共享内存块，但仍然可以选择使用许多节点。

相关内容

最新更新

热门标签：