OpenCL多个有序命令队列与单个无序命令队列



我有许多作业要执行。每个作业都包括一个缓冲区写入、一个内核执行和一个缓冲区时读取,当然这些操作必须按顺序执行。然而,各种作业是独立的,因此可以同时执行。

使用多个有序命令队列(就像使用CUDA流一样)和一个无序命令队列(具有等效同步)之间是否存在性能差异?哪个更好?

有些实现不支持无序的命令队列。

根据你的描述,我会使用多个无序队列。使用单个无序队列需要在虚拟队列中同步事件,这对您来说是额外的工作。

最新更新