库达,为什么我不能使用多个流处理器



我在Cuda中实现了RNS Montgomery求幂。

一切都很好。它只在一个SM上运行。

但是,到目前为止,我只关注一个exp的并行化。我现在想做的是用几个exp进行动态测试。也就是说,我希望第I个下一个exp被分配给一个免费的SM。

我试过了,最后的时间总是线性增长,也就是说所有的exp都分配给了同一个SM。

然后我切换到流,但什么都没有改变。

然而,我从未使用过它们,所以也许我做错了什么。。

这是代码:

void __smeWrapper() {
    cudaEvent_t start, stop;
    cudaStream_t stream0, stream1, stream2;
    float time;
    unsigned int j, i, tmp;
    cudaEventCreate(&start);
    cudaEventCreate(&stop);
    dim3 threadsPerBlock(SET_SIZE, (SET_SIZE+1)/2);
    setCudaDevice();
    s_transferDataToGPU();
    if(cudaDeviceSetCacheConfig(cudaFuncCachePreferL1) != cudaSuccess)
        printf("cudaDeviceSetCacheConfig ERROR!");
    cudaEventRecord( start, 0 );
    //for(i=0; i<EXPONENTIATION_NUMBER; i++)    {
    i=0;
        __me<<< 1, threadsPerBlock, 0, stream0 >>>(&__s_x[i*(2*SET_SIZE + 1)],     __B2modN, __bases, __mmi_NinB, __mmi_Bimodbi, __Bi_inAUar, __dbg, __NinAUar,    
                                            __mmi_BinAUar, __mmi_Ajmodaj, __Ajmodar, __mmi_Armodar, __AjinB, __minusAinB, &__z[i*(2*SET_SIZE + 1)], __e);
    i=1;
        __me<<< 1, threadsPerBlock, 0, stream1 >>>(&__s_x[i*(2*SET_SIZE + 1)], __B2modN, __bases, __mmi_NinB, __mmi_Bimodbi, __Bi_inAUar, __dbg, __NinAUar,
                                        __mmi_BinAUar, __mmi_Ajmodaj, __Ajmodar, __mmi_Armodar, __AjinB, __minusAinB, &__z[i*(2*SET_SIZE + 1)], __e);
    i=2;
    __me<<< 1, threadsPerBlock, 0, stream2 >>>(&__s_x[i*(2*SET_SIZE + 1)], __B2modN, __bases, __mmi_NinB, __mmi_Bimodbi, __Bi_inAUar, __dbg, __NinAUar, __mmi_BinAUar,
                                                                    __mmi_Ajmodaj, __Ajmodar, __mmi_Armodar, __AjinB, __minusAinB, &__z[i*(2*SET_SIZE + 1)], __e);
        //printf("n%snn", cudaGetErrorString(cudaGetLastError()));
    //}
cudaEventRecord( stop, 0 );
cudaEventSynchronize( stop );
cudaEventElapsedTime( &time, start, stop );
    printf("GPU %f µs : %f msn", time*1000, time);
cudaEventDestroy( start );
cudaEventDestroy( stop );

Ubuntu 11.04 64b,Cuda 5 RC,560 Ti(8 SM)

一个块中的所有线程总是在同一个SM上运行。您需要启动多个块才能使用其他SM。

你的流似乎有问题——你会为每个流调用cudaStreamCreate吗?在我的系统上,如果我不使用SEGFAULT,它就会崩溃。

相关内容

  • 没有找到相关文章

最新更新