我有一个使用三个内核的程序。为了获得加速,我正在执行虚拟内存复制以创建上下文,如下所示:
__global__ void warmStart(int* f)
{
*f = 0;
}
在内核之前启动,我想计时如下:
int *dFlag = NULL;
cudaMalloc( (void**)&dFlag, sizeof(int) );
warmStart<<<1, 1>>>(dFlag);
Check_CUDA_Error("warmStart kernel");
我还阅读了其他最简单的方法,将上下文创建为cudaFree(0)
或cudaDevicesynchronize()
。但是使用这些 API 调用比使用虚拟内核更糟糕。
在强制上下文之后,程序的执行时间对于虚拟内核为0.000031
秒,对于 cudaDeviceSynchronize() 和 cudaFree(0) 为0.000064
秒。时间是10次单独执行程序的平均数。
因此,我得出的结论是,启动内核会初始化以规范方式创建上下文时未初始化的内容。
那么,使用内核和使用 API 调用这两种方式创建上下文有什么区别呢?
我在 GTX480 中运行测试,在 Linux 下使用 CUDA 4.0。
每个 CUDA 上下文都有执行内核所需的内存分配,不需要分配这些内存来同步、分配内存或释放内存。上下文内存的初始分配和这些分配的大小调整将推迟到内核需要这些资源。这些分配的示例包括本地内存缓冲区、设备堆和 printf 堆。