如何用CUDA计算大矩阵的二维FFT



现在我有一个大的16K*16K矩阵,全局内存不够。如何计算矩阵的二维FFT?

也许使用统一内存进行过订阅可以使用cuFFT?

https://developer.nvidia.com/blog/unified-memory-cuda-beginners/

您还可以分别对行和列执行FFT,并在其间将数据移动到主机内存或从主机内存移动数据。

你需要完整的结果矩阵吗?你在CPU和GPU上有多少内存?输入/输出值是否复杂?您需要多大的精度(16位足够吗(?计算时间关键吗?您是否也想处理更大的矩阵?

最新更新