C语言 OpenCL 多 GPU 缓冲区读取失败

我正在尝试让 2 个 Nvidia GPU 并排工作以进行 n 体模拟（来源）。我进行正确的检测，并将所有 OpenCL 内容存储在一个结构中：

struct ocl_wrap {
  cl_event event;
  cl_program program;
  cl_kernel kernel;
  cl_command_queue command_queue;
  cl_device_id device_id;
  cl_context context;
  cl_mem masses;
  cl_mem bodies;
  cl_mem speeds;
  cl_mem newBodies;
  cl_int ret;
};

所以现在，每个设备都分配了自己的结构（自己的上下文、队列等），每一步我都运行这 2 个函数：

void writeGPU() {
      clCreateBuffer() //4* 
      clSetKernelArg() //5*
      clEnqueueNDRangeKernel()
}
void readGPU() {
      clEnqueueReadBuffer() //2*
      clFlush()
      clReleaseMemObject() //4*
}

一个步骤看起来像这样：

void step() {
  for each gpu
    writeGPU();
  runCPU();
  for each gpu
    readGPU();
}

每个设备都有一个要解决的问题子集。

我有一个问题，前 64 个（有时是 128 个）从一个或另一个 GPU 浮动，我尝试复制回 CPU 实际上不会复制。否则，一切正常，第一个 GPU 完美运行。有时它只是工作，但只是随机出现错误并且不会消失。有什么建议吗？

在这一点上，我的猜测是，您可能没有利用 OpenCL 事件系统，甚至 OpenCL 内存屏障/围栏来获取有关 I/O 读写是否已到达目的地的通知，并通过设置断点和候补名单来协调您的程序。如果系统上的 OpenCL 分发工具包正常工作，并且您正在使用事件系统，则上面介绍的程序序列应类似于

// setup global event objects
// setup global markers/barriers
void writeGPU() {
      // hook event listeners to APIs
      clCreateBuffer() //4* 
      clSetKernelArg() //5*
      clEnqueueNDRangeKernel()
      // place appropriate markers/barriers
}
void readGPU() {
      // Many OpenCL APIs listen to events and proceed only 
      // when the `wait` condition is satisfied or 
      // barrier conditions are met.
      clEnqueueReadBuffer() //2*
      clFlush()
      clReleaseMemObject() //4*
}

您可能正在读取完成之前查看数据。 clFlush仅确保命令离开主机，而不是命令在设备上完成。解决方案：使用阻塞读取，或使用clFinish而不是clFlush，或使用 OpenCL 事件。

相关内容

最新更新

热门标签：