在将复杂数据从主机传输到设备的简单 CUDA 代码中出现问题

我从互联网上复制了以下代码，并尝试在安装了Tesla C2075的服务器中进行编译，应该支持双精度，我还使用标志编译代码sm_20

#include <iostream>
#include <iomanip>
#include <fstream>
#include <cuda_runtime.h>
#include <cuComplex.h>
#include <cublas_v2.h>
using namespace std;
typedef double2 Complex;
#define m 1024
#define n 300
#define k 1024
int main(int argc, char *argv[])
{
  Complex _A[m*k], _B[k*n];
  Complex *A, *B;
  cudaMalloc((void**)&A, m*k*sizeof(Complex));
  cudaMalloc((void**)&B, k*n*sizeof(Complex));
  for (int i=0; i<m*k; i++) _A[i] = make_cuDoubleComplex(rand()/(double)RAND_MAX, rand()/(double)RAND_MAX);;
  for (int i=0; i<k*n; i++) _B[i] = make_cuDoubleComplex(rand()/(double)RAND_MAX, rand()/(double)RAND_MAX);
  cudaMemcpy( A, _A, (m*k)*sizeof(Complex), cudaMemcpyHostToDevice );
  cudaMemcpy( B, _B, (k*n)*sizeof(Complex), cudaMemcpyHostToDevice );
  return 0;
}

它

确实可以编译，但在运行时，它总是返回"分段错误（核心转储）"。代码有什么问题吗？谢谢。

您的数组_A和_B很可能太大而无法容纳在堆栈上。一个快速的解决方法是将数组移出到全局范围。更好的解决方法是使用 new 和 delete 动态分配它们，如下所示：

Complex *_A = new Complex[m*k];
Complex *_B = new Complex[k*n];
...
delete [] _A;
delete [] _B;

由于您使用的是C++，因此更好的选择是使用 std：：vector：

std::vector < Complex > _A(m*k);
std::vector < Complex > _B(k*n);
// But now to get the pointer you need this:
cudaMemcpy( A, &_A[0], (m*k)*sizeof(Complex), cudaMemcpyHostToDevice );
// etc.

&_A[0]语法意味着：获取向量第一个元素的地址，该地址与指向整个数组的指针相同。首选向量而不是手动分配内存的原因是，当变量超出范围时，销毁/释放会自动发生，这对于编写异常安全代码至关重要。

您还需要#include <vector>

相关内容

最新更新

热门标签：