,所以我找到了这个Wikipedia资源
每个设备的最大居民网格数量 (并发内核执行)
对于每个计算功能,它都说明了许多并发核,我认为这是并发核的最大数量。
现在,我将获得GTX 1060,根据该NVIDIA CUDA资源的计算能力为6.1。从我到目前为止的CUDA了解的内容,您可以使用FLAG -arch=compute_XX
在NVCC中指定代码的虚拟计算功能。
那么,我的GPU将是将硬件限制在32个并发核的限制,还是使用-arch=compute_60
标志的128?
根据NVIDIA CUDA编程指南的表13,计算能力6.1设备最多32个居民网格= 32并发核。
即使使用-arch=compute_60
标志,您也将仅限于32个并发内核的硬件限制。选择要编译的特定体系结构不允许您超过机器的硬件限制。
添加到接受的答案中,现在是表15 截至2022年4月的NVIDIA CUDA C编程指南中,最新的CUDA版本为12.1。或者,您只需在文档中搜索每个计算能力的技术规格。