同一个OpenCL程序在不同的OpenCL设备上编译,可能在不同的平台上。为每个设备创建一个命令队列。例如,可以有两个队列,一个用于 CPU,一个用于 GPU。
是否可以从不同的主机线程(每个命令队列一个)调用clEnqueueNDRangeKernel
然后clEnqueueReadBuffer
(阻塞)两个命令队列?
例如,使用 OpenMP,带有类似
// queues_ contains command queues for different contexts,
// each with one device on one platform (e.g. CPU and GPU)
#pragma omp parallel for num_threads(2) schedule(dynamic)
for(int i = 0; i < job_count; ++i) {
cl::CommandQueue& queue = queues_[omp_get_thread_num()];
// queue is for one device on one platform
// euqueue kernel, and read buffer on queue
}
这会将作业列表分为 CPU 和 GPU 的两个块。 schedule(dynamic)
将使调度动态适应内核的执行时间。主机代码将花费大部分时间等待内核(在阻塞clEnqueueReadBuffer
调用中)。但是由于CPU设备,CPU实际上会忙于执行内核(在OpenCL中),同时等待GPU完成(在主机代码中)。
如果上下文也不同,那么即使使用 3D 应用程序,它们也可以独立工作。根据实现,两个上下文可能被驱动程序抢占或超线程化,但你可以进一步在上下文之间添加基于事件的同步,以便队列 a 中的一个项目等待队列 b 中的项目完成。
如果它们位于同一上下文中,则可以使用驱动程序或 apis 性能操作在两个队列之间执行隐式同步。
将 cpu 的所有内核用于内存绑定内核不会让它足够快地在 GPU 之间进行数组复制,除非您在复制时使用直接内存访问,这会设置 cpu 免于复制指令。如果缓存足够大且足够快,也许它不需要这样的东西。