在 CUDA 文档中提到,如果我们像这样使用 2 个流(stream0 和 stream1(:我们在 stream0 中复制数据,然后在 stream0 中启动第一个内核,然后我们从 stream0 中的设备恢复数据,然后在 stream1 中进行相同的操作,这样,就像《CUDA by example 2010》一书中提到的, 不提供并发执行,但在"并发内核示例"中,使用此方法并提供并发执行。那么,你能帮我理解这两个例子之间的区别吗?
重叠的数据传输取决于许多因素,包括计算功能版本和编码样式。此博客可能会提供更多信息。
https://developer.nvidia.com/content/how-overlap-data-transfers-cuda-cc
我只是在扩展埃里克的答案。
在 CUDA C 编程指南中,报告了使用 2
流的示例,例如 stream0
和 stream1
,执行以下操作
案例 A
memcpyHostToDevice --- stream0
kernel execution --- stream0
memcpyDeviceToHost --- stream0
memcpyHostToDevice --- stream1
kernel execution --- stream1
memcpyDeviceToHost --- stream1
换句话说,首先发布stream0
的所有操作,然后发布有关stream1
的操作。同样的例子在"CUDA By Example"一书的第 10.5 节中报告,但"显然"得出结论(与指南"明显"一致(,以这种方式无法实现并发。
在"CUDA 示例"的第 10.6 节中,提出了以的替代用法
案例B
memcpyHostToDevice --- stream0
memcpyHostToDevice --- stream1
kernel execution --- stream0
kernel execution --- stream1
memcpyDeviceToHost --- stream0
memcpyDeviceToHost --- stream1
换句话说,stream0
和stream1
的 mem 复制操作和内核执行现在是交错的。本书指出了如何使用此解决方案实现并发。
实际上,"CUDA By Example"一书和 CUDA C 编程指南之间没有传统,因为书中的讨论是特别参考 GTX 285 卡进行的,而正如 Eric 和引用的博客文章如何在 CUDA C/C++ 中重叠数据传输所指出的那样, 由于可用的依赖项和复制引擎,并发可以在不同的体系结构上以不同的方式实现。
例如,博客考虑了两张卡:C1060 和 C2050。前者有一个内核引擎和一个复制引擎,一次只能发出一个内存事务(H2D 或 D2H(。后者有一个内核引擎和两个复制引擎,可以同时发出两个内存事务(H2D 和 D2H(。对于只有一个复制引擎的 C1060,情况如下
案例 A - C1060 - 未实现并发
Stream Kernel engine Copy engine Comment
stream0 ---- memcpyHostToDevice ----
stream0 ---- kernel execution ---- Depends on previous memcpy
stream0 ---- memcpyDeviceToHost ---- Depends on previous kernel
stream1 ---- memcpyHostToDevice ----
stream1 ---- kernel execution ---- Depends on previous memcpy
stream1 ---- memcpyDeviceToHost ---- Depends on previous kernel
案例 B - C1060 - 实现并发
Stream Kernel engine Copy engine Comment
stream0 ---- memcpyHostToDevice 0 ----
stream0/1 ---- Kernel execution 0 ---- memcpyHostToDevice 1 ----
stream0/1 ---- Kernel execution 1 ---- memcpyDeviceToHost 0 ----
stream1 ---- memcpyDeviceToHost 1 ----
关于 C2050 并考虑3
流的情况,在 CASE 中,现在实现了并发,与 C1060 相反。
案例 A - C2050 - 实现并发
Stream Kernel engine Copy engine H2D Copy engine D2H
stream0 ---- memcpyHostToDevice 0 ----
stream0/1 ---- kernel execution 0 ---- memcpyHostToDevice 1 ----
stream0/1/2 ---- kernel execution 1 ---- memcpyHostToDevice 2 ---- memcpyDeviceToHost 0
stream0/1/2 ---- kernel execution 2 ---- memcpyDeviceToHost 1
stream2 ---- memcpyDeviceToHost 2