CUDA 流不重叠

我有一些与代码非常相似的东西：

int k, no_streams = 4;
cudaStream_t stream[no_streams];
for(k = 0; k < no_streams; k++) cudaStreamCreate(&stream[k]);
cudaMalloc(&g_in,  size1*no_streams);
cudaMalloc(&g_out, size2*no_streams);
for (k = 0; k < no_streams; k++)
  cudaMemcpyAsync(g_in+k*size1/sizeof(float), h_ptr_in[k], size1, cudaMemcpyHostToDevice, stream[k]);
for (k = 0; k < no_streams; k++)
  mykernel<<<dimGrid, dimBlock, 0, stream[k]>>>(g_in+k*size1/sizeof(float), g_out+k*size2/sizeof(float));
for (k = 0; k < no_streams; k++)
  cudaMemcpyAsync(h_ptr_out[k], g_out+k*size2/sizeof(float), size2, cudaMemcpyDeviceToHost, stream[k]);
cudaThreadSynchronize();
cudaFree(g_in);
cudaFree(g_out);

"h_ptr_in"和"h_ptr_out"是分配有cudaMallocHost的指针数组（没有标志）。

问题是流不重叠。在可视分析器中，我可以看到第一个流的内核执行与第二个流的副本（H2D）重叠，但没有其他重叠。

我可能没有资源来运行 2 个内核（我想我有），但至少内核执行和复制应该是重叠的，对吧？如果我将所有 3 个（复制 H2D、内核执行、复制 D2H）放在同一个 for 循环中，它们都不会重叠......

请帮忙，是什么原因造成的？

我正在运行：

乌班图 10.04 x64

裝置：「GeForce GTX 460」（CUDA 驱动程序版本：3.20， CUDA 运行时版本：3.20， CUDA 功能主要/次要版本号：2.1，并发复制和执行：是，并发内核执行：是）

根据 NVIDIA 论坛上的这篇文章，分析器将序列化流以获得准确的计时数据。如果您认为您的时间不对，请确保您使用的是 CUDA 事件......

我

最近一直在尝试流式传输，我发现 SDK 中的"simpleMultiCopy"示例非常有用，尤其是在适当的逻辑和同步方面。

如果你想看到内核与内核（并发内核）重叠，你需要使用 CUDA 5.0 工具包附带的 CUDA Visual profiler 5.0。我不认为以前的分析器能够做到这一点。它还应该显示内核和内存重叠。

相关内容

最新更新

热门标签：