小贝子编程

在GPU系统上，BLAS/LAPACK或其他线性代数路由的最快实现是什么

本文关键字：路由线性代数是什么实现其他系统 GPU BLAS LAPACK gpu linear-algebra gpgpu lapack blas
更新时间 : 2023-09-01
英文 : What are the fastest available implementations of BLAS/LAPACK or other linear algebra routings on GPU systems?

nVidia就有CUBLAS，它可以保证7-14倍的速度。坦率地说，这与nVidia的任何GPU卡的理论吞吐量都相去甚远。在GPU上加速线性代数的挑战是什么？是否已经有更快的线性代数路由可用？

据我所知，CUBLAS是Nvidia GPU可用的最快的线性代数实现。如果您需要LAPACK功能，可以使用CULAPACK。

注意，CUBLAS只涵盖稠密线性代数；对于稀疏矩阵，有CUSPARSE（也作为CUDA工具包的一部分提供）。

加速在很大程度上取决于您正在操作的数据类型，以及您正在执行的特定操作。一些线性代数运算的并行性很好，而另一些则不然，因为它们本质上是连续的。并行体系结构的数值算法优化是（几十年来一直是）一个正在进行的研究领域，因此算法的性能不断提高。

相关内容