有什么区别:DRAM 吞吐量与全局内存吞吐量

CUDA 分析器使用四个指标报告内核实现的实际吞吐量：

CUDA C 最佳实践指南将全局内存负载/存储吞吐量描述为实际吞吐量，并且没有具体说明 DRAM 读/写吞吐量。

CUPTI 用户指南定义：

全局内存负载吞吐量为（（128*global_load_hit） + （l2_subp0_read_requests + l2_subp1_read_requests） * 32 - （l1_cached_local_ld_misses * 128））/（gputime）
全局内存存储吞吐量为（l2_subp0_write_requests + l2_subp1_write_requests） * 32 - （l1_cached_local_ld_misses * 128））/（gputime）
DRAM 读取吞吐量为 （fb_subp0_read + fb_subp1_read） * 32/gputime
DRAM 写入吞吐量为 （fb_subp0_write + fb_subp1_write） * 32/gputime

我了解 DRAM 读/写吞吐量，因为 fb_subp* 计数器报告了许多 DRAM 访问（对于 32 字节访问，增加 1），并且针对所有 SMS 收集。因此，我很清楚，吞吐量是根据 gputime 和访问的字节数计算的函数。

我不了解全局内存吞吐量定义。没有global_load_hit和计数器的定义。我不明白为什么在这两种情况下都减去l1_cached_local_ld_misses。

在这种情况下，DRAM 与全局内存有什么不同吗？

如果我想知道内核的实际吞吐量是多少，我应该使用 DRAM 还是全局内存吞吐量指标？

全局内存吞吐量是来自全局地址空间的指令请求的数据量。 global_load_hits是来自全局请求的 L1 缓存命中数（缓存行大小为 128 字节）。公式的其余部分通过计算对 L2 的所有访问来近似于错过 L1 的访问的全局吞吐量。

全局内存是可以映射到设备内存和系统内存的虚拟内存空间。

DRAM 是物理设备内存（例如卡上的 GDDR5）。在 L2 未命中时访问 DRAM。以下虚拟地址空间可以位于 DRAM/设备内存（全局、本地、常量、指令和纹理）中。请注意，其中许多内存空间是虚拟地址空间，最终数据可以驻留在 DRAM 或系统内存中。

全局内存加载/存储会经过缓存;其中一些可能会发现命中或写回。这将避免访问 DRAM。因此，全局内存吞吐量取决于加载/存储请求的数量和缓存的命中/未命中率。

相比之下，DRAM 吞吐量仅根据 DRAM 访问计算，而不考虑缓存的任何影响。

要测量您的情况下的内核吞吐量，您应该使用全局内存吞吐量，因为这些吞吐量包括缓存效应。

相关内容