充分利用 CUDA 5 的功能需要哪些卡和计算能力



我们刚刚收到了CUDA 5的稳定版本。有一些新的术语,例如开普勒和使用MPI具有更好性能的能力,并同时使用32个应用程序运行同一卡。不过,我有点困惑,并寻找这样的问题的答案:

  • 完全利用CUDA 5的功能需要哪些卡和计算功能?
  • 是仅适用于开普勒体系结构的新功能,例如gpudirect,动态并行性,超Q和动态并行性。
  • 如果我们有费米体系结构,则使用CUDA 5的好处是什么好处。我认为最重要的功能是构建库的能力?
  • 您是否仅通过从CUDA 4到达Cuda 5来看到任何性能的改进。

我发现了一些文档,例如

  • http://developer.download.nvidia.com/compute/devzone/docs/html/c/doc/kepler_compatibility_guide.pdf
  • http://www.nvidia.com/content/pdf/kepler/nvidia-kepler-gk110-architecture-white-white-white-whitepaper.pdf
  • http://blog.cuvilib.com/2012/03/28/nvidia-cuda-kepler-kepler-vs-vermi-architection/

但是,更好的简短描述可能会使我们的想法更加清晰。

ps:请不要将答案限制在上面的问题上。我可能会缺少一些类似的问题。

计算能力3.5(例如GK110)是动态并行性的需要的。

计算功能3.5是hyper-q。

SHFL内在需要CC 3.0(GK104)

设备代码链接,Nsight EE,NVPROF,CUDA 5中的性能改进和错误修复。

最新更新