是否有相当于opencl 2.0 work_group_*功能的内置CUDA内核函数?我特别正在寻找work_group_scan_exclusive_add和work_group_reduce_add。我对这些操作的幼稚实现不像OpenCL的内置功能那样执行,我希望可以使用__SHFL实施__SHFL来加快CUDA的速度。
cuda本身不提供此功能。
幼崽库是在构建的。
这里总结了块级的原始图。
此页面具有用于实现块减少的参考代码。