它被定义为从不同的内核写入同一个缓冲区吗

我有OpenCL 1.1，一个设备，无序执行命令队列，并且希望多个内核将它们的结果输出到一个缓冲区中，输出到不同的、不重叠的、任意的区域。有可能吗？

cl::CommandQueue commandQueue(context, CL_QUEUE_OUT_OF_ORDER_EXEC_MODE_ENABLE);
cl::Buffer buf_as(context, CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR, data_size, &as[0]);
cl::Buffer buf_bs(context, CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR, data_size, &bs[0]);
cl::Buffer buf_rs(context, CL_MEM_WRITE_ONLY, data_size, NULL);
cl::Kernel kernel(program, "dist");
kernel.setArg(0, buf_as);
kernel.setArg(1, buf_bs);
int const N = 4;
int const d = data_size / N;
std::vector<cl::Event> events(N);
for(int i = 0; i != N; ++i) {
    int const beg = d * i;
    int const len = d;
    kernel_leaf.setArg(2, beg);
    kernel_leaf.setArg(3, len);
    commandQueue.enqueueNDRangeKernel(kernel, NULL, cl::NDRange(block_size_x), cl::NDRange(block_size_x), NULL, &events[i]);
}
commandQueue.enqueueReadBuffer(buf_rs, CL_FALSE, 0, data_size, &rs[0], &events, NULL);
commandQueue.finish();

我想给委员会一个正式的回应。我们意识到规范不明确，并已对此进行了修改。

这在OpenCL 1.x或2.0规则下是不可保证的。cl_mem对象只能保证在同步点保持一致，即使仅在单个设备上处理，也可以由OpenCL 2.0内核使用memory_scope_device使用。

OpenCL 2.0父内核的多个子内核可以在设备范围内共享父内核的cl_mem对象。

粗粒度SVM对象可以在设备范围内在多个内核之间共享，只要写入的内存位置不重叠即可。

如果全局内存地址如您所述不重叠，那么写入应该可以正常工作。在将结果读回主机之前，只需确保两个内核都已完成。

我认为它没有定义。尽管您说您在软件级别写入非重叠区域，但不能保证在硬件级别访问不会映射到相同的缓存线上——在这种情况下，您会有多个修改后的版本四处传播。

相关内容

最新更新

热门标签：