CUDA宽宽的平行原始原始

  • 本文关键字:原始 CUDA c++ cuda
  • 更新时间 :
  • 英文 :


是否有相当于opencl 2.0 work_group_*功能的内置CUDA内核函数?我特别正在寻找work_group_scan_exclusive_add和work_group_reduce_add。我对这些操作的幼稚实现不像OpenCL的内置功能那样执行,我希望可以使用__SHFL实施__SHFL来加快CUDA的速度。

cuda本身不提供此功能。

幼崽库是在构建的。

这里总结了块级的原始图。

此页面具有用于实现块减少的参考代码。

最新更新