高效收集和传输教堂中分散的子阵列

最近，我遇到了Chapel。我喜欢教程中给出的示例，但其中许多在我眼中令人尴尬地平行。我正在研究多体量子物理学中的散射问题，一个常见问题可以简化为以下几点。

形状M x N x N的张量A填充了矩阵方程的解，用于M不同的参数1..M
需要张量A的子集来计算每个参数都1..M。

问题的第一部分令人尴尬地平行。

因此，我的问题是，是否以及如何仅将张量A的所需子集传输到集群的每个区域设置并最小化必要的通信？

当 Chapel 正确地完成其工作时，应该以有效的方式在分布式数组和本地数组(例如(之间传输数组切片。这意味着您应该能够使用 Chapel 的数组切片符号编写此类张量子集传输。

例如，下面是编写此类模式的一种方法：

// define a domain describing a 5 x 7 x 3 index set anchored at index (x,y,z)
const Slice = {x..#5, y..#7, z..#3};
// create a new array variable that stores the elements from distributed array 
// `myDistArray` locally
var myLocalArray = myDistArray[Slice];

新的变量myLocalArray将是一个数组，其元素是myDistArray中元素的副本，如Slice中的索引所述。myLocalArray的域将是切片域Slice，因此由于Slice是一个非分布式域，因此myLocalArray也将是一个本地/非分布式数组，因此当从当前语言环境操作时，不会产生使用Chapel的分布式数组表示法的任何开销。

到目前为止，我们主要专注于优化块分布式阵列的此类传输。例如，对于上面示例的情况，当 myDistArray 是块分布的时，当我改变切片的大小时，我看到语言环境之间的通信数量是固定的(尽管这些通信的大小显然会根据需要传输的元素数量而变化(。已知其他情况和模式需要更多的优化工作，因此，如果您发现未按预期执行/扩展的情况，请针对它提交 Chapel GitHub 问题，以帮助提醒我们您的需求和/或帮助您找到解决方法。

所以，勾勒出你描述的模式，我可能会想象做这样的事情：

// create a local and distributed version of the complete tensor space
const LocTensorSpace = {1..M, 1..N, 1..N},
TensorSpace = LocTensorSpace dmapped Block(LocTensorSpace);
// declare array A to store the result of step 1
var A: [TensorSpace] real;
// ...compute A here...
// declare a 1D distributed form of the parameter space to drive step 2    
const ParameterSpace = {1..M} dmapped Block({1..M});
// loop over the distributed parameter space; each locale will use all its cores
// to compute on its subset of {1..M} in parallel
forall m in ParameterSpace {
// create a local domain to describe the indices you want from A
const TensorSlice = { /* ...whatever indices you need here... */ };
// copy those elements into a local array
var locTensor = A[TensorSlice];
// ...compute on locTensor here...
}

其他一些似乎与我有关但又不想让这个问题陷入困境的事情是：

如果需要，可以声明 TensorSpace/A，以便只有 1..M 维度分布在各个区域设置中，并且 {1..N， 1..N} 平面是本地的
还有一些方法可以查询语言环境拥有分布式数组的哪些索引;结合上一点，这可能是一种减少所需通信量的方法，假设步骤 2 的迭代与 A 的平面之间存在对应关系。
还有一些方法可以就地引用分布式阵列片和/或为其指定符号名称，而不是如上所述创建它的本地副本
如果需要/首选，可以将A声明为2D阵列的1D分布式数组，尽管如果您想访问空间的3D切片，这可能不那么好

(因此，如果有兴趣，请随时提出后续问题(

最后，为了后代的利益，这是我在整理此响应时编写的程序，以确保我在通信数量和获取本地数组方面获得我预期的行为(这是chpl version 1.23.0 pre-release (ad097333b1)，尽管我希望最新版本的 Chapel 具有相同的行为：

use BlockDist, CommDiagnostics;
config const M = 10, N=20;
const LocTensorSpace = {1..M, 1..N, 1..N},
TensorSpace = LocTensorSpace dmapped Block(LocTensorSpace);
var A: [TensorSpace] real;
forall (i,j,k) in TensorSpace do
A[i,j,k] = i + j / 100.0 + k / 100000.0;

config const xs = 5, ys = 7, zs = 3,            // size of slice                
x = M/2-xs/2, y = N/2-ys/2, z = N/2-zs/2;  // origin of slice      

const Slice = {x..#xs, y..#ys, z..#zs};
writeln("Copying a ", (xs,ys,zs), " slice of A from ", (x,y,z));
resetCommDiagnostics();
startCommDiagnostics();
var myLocArr = A[Slice];
stopCommDiagnostics();
writeln(getCommDiagnostics());
writeln(myLocArr);
writeln(myLocArr.isDefaultRectangular());

相关内容

最新更新

热门标签：