C语言 MPI_Allgather with 2D arrays

我正在尝试计算一些基于其先前位置的物体的位置。因此，在每个 k 循环中，我需要使用计算并存储在 Cw 数组中的主体的新坐标 (x，y，z( 更新每个 C 数组。我尝试了MPI_Allgather但找不到正确的语法来实现它。

我已经用 k=1 问题的串行版本检查了输出，并且 F、V 和 Cw 数组的值是正确的，所以唯一的问题是MPI_Allgather。为简单起见，现在的 dt 变量等于 1。我已经尝试过了，但没有工作。第一个仅从 Cw 和另外 2 个值更新第一行 C 数组，但在错误的地方，其余的与开头填充时相同。第二个给出分段错误

MPI_Allgather(&(Cw[0][0]),length*3,MPI_FLOAT,&(C[0][0]),length*3,MPI_FLOAT,MPI_COMM_WORLD);
MPI_Allgather(Cw,length*3,MPI_FLOAT,C,length*3,MPI_FLOAT,MPI_COMM_WORLD);

这是代码

float **C,**Cw;
C=malloc(N*sizeof(float*));
Cw=malloc(length*sizeof(float*));
for(i=0;i<length;i++)
{
Cw[i]=malloc(3*sizeof(float));
}
for(i=0;i<N;i++)
{
C[i]=malloc(3*sizeof(float));
}

for(k=0;k<loop;k++)
{
for(i=start;i<=end;i++)                      
{
for(j=0;j<N;j++)                        
{
if(i!=j)
{
dx=C[j][0]-C[i][0];
dy=C[j][1]-C[i][1];
dz=C[j][2]-C[i][2];
d=sqrt(pow(dx,2)+pow(dy,2)+pow(dz,2));
F[i-start][0] -= G*M[i]*M[j]/pow(d,3)*dx;
F[i-start][1] -= G*M[i]*M[j]/pow(d,3)*dy;
F[i-start][2] -= G*M[i]*M[j]/pow(d,3)*dz;
}
}
}
for(i=0;i<length;i++)
{
for(j=0;j<3;j++)
{
a=F[i][j]/M[i+start];                 // α=F/m
V[i][j]=V[i][j]+a*1;                 // V(n+1)=Vn+α*Δt
Cw[i][j]=C[i+start][j]+V[i][j]*1;    // R(n+1)=Rn+Vn*Δt
}
}
// where MPI_Allgather takes place
}

我期望的输出是由串行程序提供的 https://drive.google.com/open?id=1fwLu8Jk3JEorFTvNJyOtti3K_zIw0ncw

包含此代码的 mpi 版本

MPI_Allgather(&(Cw[0][0]),length*3,MPI_FLOAT,&(C[0][0]),length*3,MPI_FLOAT,MPI_COMM_WORLD);

给出此输出 https://drive.google.com/open?id=14cEFFRvNGUN_RK3u8Z31iRDtiTJs6_8I

再一次，这种指针到指针的废话(对于 scicomp(：您是通过 MPI 传递指向行的指针，而不是内容。

我建议您避免将数组分配为 N 个独立的行，如下所示：

float **C,**Cw;
// I guess that you missed to paste these two lines
C  = malloc( N * sizeof(float*) );    
Cw = malloc( length * sizeof(float*) );
for(i=0;i<length;i++)
{
Cw[i]=malloc(3*sizeof(float));
}
for(i=0;i<N;i++)
{
C[i]=malloc(3*sizeof(float));
}

以这种方式分配的数组在内存中不是线性的，并且不能由 MPI 函数全局使用。当你传递C时，你只是传递指针数组。传递&C[0][0]，您正在传递前 3 个元素的数组，但其他 3 元素数组在内存中不是连续的，因为它们是独立分配的。所以段错误是你能达到的最好的结果，随机结果是最坏的。

在一个块中分配所需的内存是正确的，MPI 函数可以正确处理：

float *C,*Cw;
C  = malloc( N * 3 * sizeof(float) );    
Cw = malloc( length * 3 * sizeof(float) );

并将任何内存访问替换为

dx=C[j][0]-C[i][0];
dy=C[j][1]-C[i][1];
dz=C[j][2]-C[i][2];

跟

dx=C[3*j+0]-C[3*i+0];
dy=C[3*j+1]-C[3*i+1];
dz=C[3*j+2]-C[3*i+2];

这样，传递C将导致正确传递数组内容。

相关内容

最新更新

热门标签：