c语言 - CUDA:将 char 数组从主机复制到设备后出现"Stack Overflow or Breakpoint Hit"和未指定的启动失败错误



我在主程序中有一个大的char数组,我将其分块复制到设备中记忆力我在程序中运行了大约500000个线程,每个线程访问2000个字符。所以我用代码一次传输500000*2000=1GB字节

err = cudaMemcpy (dev_database, adjusted_database[k], JOBS * 2000 * sizeof(char), cudaMemcpyHostToDevice);
if(err != cudaSuccess) { printf("CUDA error: %sn", cudaGetErrorString(err)); exit(EXIT_FAILURE); }

在我的内核中,我还定义了三个共享阵列

//__shared__ char dev_query[200];
__shared__ float dev_scores[200*5];
__shared__ int dev_index[26];

并用初始化它们

if(threadIdx.x == 0) { 
  //for(i = 0; i < 200; i++){ dev_query[i] = dev_query_constant[i]; }
  for(i = 0; i < 200 * 5; i++){ dev_scores[i] = dev_scores_constant[i]; }
  for(i = 0; i < 26; i++){ dev_index[i] = dev_index_constant[i]; }
}
__syncthreads(); 

如果我运行带有两行注释的程序,我的内核将返回奇怪的结果值,当我复制char数组的第二个块时,我得到错误

CUDA错误:未指定的启动失败

如果我取消对上面代码中的行的注释,一切都会很好。如果我复制较小的数组的块,例如100MB而不是1GB,在我到达第六块,我得到了与上面相同的错误。

这是一种非常奇怪的行为,我想了解为什么会发生这种情况。是某个地方有漏洞导致了这种情况?很难精确定位,因为如果我传输一小块(比如100MB)而忽略另一块,程序运行良好一个。如果我取消注释与共享变量相关的行,它也可以正常工作或者将共享变量更改为常量。如有任何帮助,我们将不胜感激。谢谢

编辑:这是我的内核。总之,我正在计算两个的相似性得分字符串,通过比较0和长度之间的所有i的第i个字符。下面的代码将产生上述错误除非您立即取消对if(threadIdx.x == 0) {之后的行的注释。或者如果你将下面的共享数组替换为常量数组,那么它也可以正常工作。

__global__ void assign7(int jobs_todo, char* database, float* results, int flag) {
unsigned int id = threadIdx.x + blockIdx.x * blockDim.x;
if(id < jobs_todo) {
__shared__ char dev_query[200];
__shared__ float dev_pos_specific_scores[200*5];
__shared__ int dev_subst_index[26];
int j_, i, p, stop, k; //stop2;
float score=0, max=0;
char ch; //ch1, ch2;
if(threadIdx.x == 0) {
//for(i = 0; i < 51; i++){ dev_query[i] = dev_query_constant[i]; }
  for(i = 0; i < 5 * 200; i++){ dev_pos_specific_scores[i] = dev_pos_specific_scores_constant[i]; }
  for(i = 0; i < 26; i++){ dev_subst_index[i] = dev_subst_index_constant[i]; }
}
__syncthreads(); 
for(i = 1; i <= 2000 - 51; i += 1){
  p = jobs_todo*(i-1);
  score = 0;
  stop = 51/1; stop = stop*1;
  for(j_ = 1; j_ <= stop; j_ += 1){
    k = (j_-1)*5;
    ch = database[p + id];
    score += dev_pos_specific_scores[k + dev_subst_index[ch - 'A']];
    if(score < 0) score = 0;
    if(score > max) max = score;                                      
    p += jobs_todo;
  }
}
results[id] = max;
}
}

下面的部分使用k而不初始化它:

ch = database[p + id];
score += dev_scores[k + dev_index[ch - 'A']];

这是无关紧要的,但这部分:

if(threadIdx.x == 0) { 
  //for(i = 0; i < 200; i++){ dev_query[i] = dev_query_constant[i]; }
  for(i = 0; i < 200 * 5; i++){ dev_scores[i] = dev_scores_constant[i]; }
  for(i = 0; i < 26; i++){ dev_index[i] = dev_index_constant[i]; }
}

可以更改为以下内容:

if(threadIdx.x < 200) {
  // dev_query[i] = dev_query_constant[i];
}
if(threadIdx.x < 200 * 5) { // or iterate whole block 5 times..
  dev_scores[i] = dev_scores_constant[i];
}
...

数据中有一些字符导致dev_index[ch-'A']返回-1。这当k=0时,使CCD_。我相信这就是我的代码内存错误。我对所有内容都进行了注释,并逐步取消了部分注释。它现在运行良好。感谢@talonmies、@harrism和@perreal的评论!

相关内容

最新更新