Gpuarray in Cuda/Matlab



我想知道是否有方法优化matlab函数gather。我正在开发一个具有非常巨大矩阵的Cuda代码,我注意到我必须使用gather函数来获取我的GPU数据相当慢。对于2^13x2^8矩阵,大约需要3秒!

gpuArray.gather的性能受到PCI总线的限制。您只能通过收集更少的数据(例如使用索引)来优化这一点。注意,在Parallel Computing Toolbox的最新版本中,许多操作都是异步的,但gather不是——所以您可能只是看到异步请求完成的时间。您可以使用wait(gpuDevice)检查是否同步设备

最新更新