充分利用 CUDA 5 的功能需要哪些卡和计算能力

我们刚刚收到了CUDA 5的稳定版本。有一些新的术语，例如开普勒和使用MPI具有更好性能的能力，并同时使用32个应用程序运行同一卡。不过，我有点困惑，并寻找这样的问题的答案：

我发现了一些文档，例如

http://developer.download.nvidia.com/compute/devzone/docs/html/c/doc/kepler_compatibility_guide.pdf
http://www.nvidia.com/content/pdf/kepler/nvidia-kepler-gk110-architecture-white-white-white-whitepaper.pdf
http://blog.cuvilib.com/2012/03/28/nvidia-cuda-kepler-kepler-vs-vermi-architection/

但是，更好的简短描述可能会使我们的想法更加清晰。

ps：请不要将答案限制在上面的问题上。我可能会缺少一些类似的问题。

计算能力3.5（例如GK110）是动态并行性的需要的。

计算功能3.5是hyper-q。

SHFL内在需要CC 3.0（GK104）

相关内容