是否可以使用纹理内存加快矩阵乘法



我正在学习cuda。

是否有可能用纹理记忆加速像矩阵乘法这样简单的事情?作为我的平铺之外,空间位置是一个很好的属性,但使用纹理内存的开销会超过它吗?

我似乎找不到任何使用纹理内存的矩阵乘法实现。

矩阵

乘法可以通过多种方式实现。

与仅使用全局内存的矩阵乘法的朴素实现相比,是的,可以使用纹理内存来加速它。

与使用共享内存的更好编写的矩阵乘法版本相比,纹理内存不太可能带来太多或任何好处。

如果你想从 CUDA 矩阵乘法中获得最佳性能,你应该使用 CUBLAS。 不要编写自己的矩阵乘法代码。

相关内容

最新更新