最大并发内核数和虚拟代码体系结构



,所以我找到了这个Wikipedia资源

每个设备的最大居民网格数量 (并发内核执行)

对于每个计算功能,它都说明了许多并发核,我认为这是并发核的最大数量。

现在,我将获得GTX 1060,根据该NVIDIA CUDA资源的计算能力为6.1。从我到目前为止的CUDA了解的内容,您可以使用FLAG -arch=compute_XX在NVCC中指定代码的虚拟计算功能。

那么,我的GPU将是将硬件限制在32个并发核的限制,还是使用-arch=compute_60标志的128?

根据NVIDIA CUDA编程指南的表13,计算能力6.1设备最多32个居民网格= 32并发核。

即使使用-arch=compute_60标志,您也将仅限于32个并发内核的硬件限制。选择要编译的特定体系结构不允许您超过机器的硬件限制。

添加到接受的答案中,现在是表15 截至2022年4月的NVIDIA CUDA C编程指南中,最新的CUDA版本为12.1。或者,您只需在文档中搜索每个计算能力的技术规格。

相关内容

  • 没有找到相关文章

最新更新