CUDA表面存储器的峰值带宽

表面内存是CUDA中纹理缓存的只写模拟。

我在学术文献中找到了从全局内存和共享内存读取的NVIDIA GPU峰值带宽数字。然而，我发现关于CUDA内存设备的写入吞吐量的信息较少。

特别是，我对Fermi和Kepler gpu上CUDA表面内存的带宽(以及延迟，如果知道的话)感兴趣。

根据设备内存访问，

由于纹理/表面/全局mem的延迟几乎相同，并且它们都位于片外DRAM上，我认为表面mem的峰值带宽与GPU规格中指示的全局mem相同。

为了计时延迟，你引用的论文可能只使用一个线程。所以很容易通过

计算延迟

global mem read latency =总读时间/读次数

您可以以类似的方式实现对表面写入的计时。但是我不认为将这种方法应用于该论文中所示的共享内存延迟测量是合理的，因为与共享内存延迟相比，for循环的开销可能不会被忽略。

相关内容