如何在 cuda
中并行化四个嵌套的 for 循环在 DCT 的情况下,我有四个嵌套的 for 循环,我希望我的 DCT 函数在 CUDA 代码中
for(y = 0; y < HEIGHT; y+=BLOCK_H) {
for(x = 0; x < WIDTH; x+= BLOCK_W) {
for(i = 0; i < BLOCK_H; i++) {
for(j = 0; j < BLOCK_W; j++) {
block_in[i][j] = cur_frame[(x+j)+(WIDTH*(y+i))];
}
}
}
}
有一份来自 Nvidia、Obukov 和 Kharlamov 的白皮书:使用 CUDA 的 8x8 块的离散余弦变换,与 CUDA 样本中的 dct8x8 一起使用。你应该看看两者。