如何修复RuntimeError CUDA错误CUBLAS_STATUS_INVALID_VALUE调用' cublas



在工作cuda环境下训练一些模型时,您可以得到错误RuntimeError: CUDA error: CUBLAS_STATUS_INVALID_VALUE when calling cublasSgemm( handle, opa, opb, m, n, k, &alpha, a, lda, b, ldb, &beta, c, ldc)

这是什么意思,如何修复它?

可能是形状错误的不完整错误报告:

一个nn的维数不匹配。线性模块及其输入,例如x.shape == [a, b]进入nn.Linear(c, c, bias=False),而c与x的形状不匹配,将导致此错误消息。

查看Pytorch论坛对话。

我在使用fairseq时得到了这个错误。我的亚马逊linux 2上安装的Cuda版本是11.5,torch版本是1.13.1。我卸载了它,并安装了1.12.1版本,这使我通过了这个错误阶段。

我后来也尝试安装火炬与cuda这种方式,它也工作得很好:PIP安装火炬==1.13.1+cu116——extra-index-url https://download.pytorch.org/whl/cu116

相关内容

最新更新