在工作cuda环境下训练一些模型时,您可以得到错误RuntimeError: CUDA error: CUBLAS_STATUS_INVALID_VALUE when calling cublasSgemm( handle, opa, opb, m, n, k, &alpha, a, lda, b, ldb, &beta, c, ldc)
这是什么意思,如何修复它?
可能是形状错误的不完整错误报告:
一个nn的维数不匹配。线性模块及其输入,例如x.shape == [a, b]
进入nn.Linear(c, c, bias=False)
,而c与x的形状不匹配,将导致此错误消息。
查看Pytorch论坛对话。
我在使用fairseq时得到了这个错误。我的亚马逊linux 2上安装的Cuda版本是11.5,torch版本是1.13.1。我卸载了它,并安装了1.12.1版本,这使我通过了这个错误阶段。
我后来也尝试安装火炬与cuda这种方式,它也工作得很好:PIP安装火炬==1.13.1+cu116——extra-index-url https://download.pytorch.org/whl/cu116