我正在学习cuda。
是否有可能用纹理记忆加速像矩阵乘法这样简单的事情?作为我的平铺之外,空间位置是一个很好的属性,但使用纹理内存的开销会超过它吗?
我似乎找不到任何使用纹理内存的矩阵乘法实现。
矩阵
乘法可以通过多种方式实现。
与仅使用全局内存的矩阵乘法的朴素实现相比,是的,可以使用纹理内存来加速它。
与使用共享内存的更好编写的矩阵乘法版本相比,纹理内存不太可能带来太多或任何好处。
如果你想从 CUDA 矩阵乘法中获得最佳性能,你应该使用 CUBLAS。 不要编写自己的矩阵乘法代码。