最大并发内核数和虚拟代码体系结构

，所以我找到了这个Wikipedia资源

每个设备的最大居民网格数量（并发内核执行）

对于每个计算功能，它都说明了许多并发核，我认为这是并发核的最大数量。

现在，我将获得GTX 1060，根据该NVIDIA CUDA资源的计算能力为6.1。从我到目前为止的CUDA了解的内容，您可以使用FLAG -arch=compute_XX在NVCC中指定代码的虚拟计算功能。

那么，我的GPU将是将硬件限制在32个并发核的限制，还是使用-arch=compute_60标志的128？

根据NVIDIA CUDA编程指南的表13，计算能力6.1设备最多32个居民网格= 32并发核。

即使使用-arch=compute_60标志，您也将仅限于32个并发内核的硬件限制。选择要编译的特定体系结构不允许您超过机器的硬件限制。

添加到接受的答案中，现在是表15 截至2022年4月的NVIDIA CUDA C编程指南中，最新的CUDA版本为12.1。或者，您只需在文档中搜索每个计算能力的技术规格。

相关内容