我们刚刚收到了CUDA 5的稳定版本。有一些新的术语,例如开普勒和使用MPI具有更好性能的能力,并同时使用32个应用程序运行同一卡。不过,我有点困惑,并寻找这样的问题的答案:
- 完全利用CUDA 5的功能需要哪些卡和计算功能?
- 是仅适用于开普勒体系结构的新功能,例如gpudirect,动态并行性,超Q和动态并行性。
- 如果我们有费米体系结构,则使用CUDA 5的好处是什么好处。我认为最重要的功能是构建库的能力?
- 您是否仅通过从CUDA 4到达Cuda 5来看到任何性能的改进。
我发现了一些文档,例如
- http://developer.download.nvidia.com/compute/devzone/docs/html/c/doc/kepler_compatibility_guide.pdf
- http://www.nvidia.com/content/pdf/kepler/nvidia-kepler-gk110-architecture-white-white-white-whitepaper.pdf
- http://blog.cuvilib.com/2012/03/28/nvidia-cuda-kepler-kepler-vs-vermi-architection/
但是,更好的简短描述可能会使我们的想法更加清晰。
ps:请不要将答案限制在上面的问题上。我可能会缺少一些类似的问题。
计算能力3.5(例如GK110)是动态并行性的需要的。
计算功能3.5是hyper-q。
SHFL内在需要CC 3.0(GK104)
设备代码链接,Nsight EE,NVPROF,CUDA 5中的性能改进和错误修复。