从CUDA文件调用Fortran OpenACC.如何使用PGI进行编译

我有一个CUDA代码，我想在其中包含由带有OpenACC内核的Fortran组成的外部代码。我有两个文件，内容如下，灵感来自NVIDIA网站上的一次讨论。文件main.cu如下：

#include <cstdio>
extern "C" void saxpy(int*, float*, float*, float*);
int main(int argc, char **argv)
{
float* x;
float* y;
float* dx;
float* dy;
int n = 1<<20;
x = (float*) malloc(n*sizeof(float));
y = (float*) malloc(n*sizeof(float));
for (int i=0; i<n; ++i)
{
x[i] = 1.f;
y[i] = 0.f;
}
cudaMalloc((void**) &dx, (size_t) n*sizeof(float));
cudaMalloc((void**) &dy, (size_t) n*sizeof(float));
cudaMemcpy(dx, x, (size_t) n*sizeof(float), cudaMemcpyHostToDevice);
cudaMemcpy(dy, y, (size_t) n*sizeof(float), cudaMemcpyHostToDevice);
float factor = 2.f;
saxpy(&n, &factor, dx, dy);
cudaMemcpy(y, dy, (size_t) n*sizeof(float), cudaMemcpyDeviceToHost);
printf("%f, %fn", y[0], y[n-1]);
return 0;
}

第二个文件saxpy.f90是：

subroutine saxpy(n, a, x, y) bind(c, name="saxpy")
use iso_c_binding, only: c_int, c_float
integer(kind=c_int), intent(in) :: n
real(kind=c_float), intent(in) :: a
real(kind=c_float), dimension(n), intent(in) :: x(n)
real(kind=c_float), dimension(n), intent(inout) :: y(n)
!$acc parallel deviceptr(x, y)
do i = 1, n
y(i) = y(i) + a*x(i)
end do
!$acc end parallel
end subroutine

如何使用nvcc和PGI编译器组合进行编译？我尝试过很多不同的选择，但总是以未解决的外部问题告终。

我尝试的是：Fortran文件的pgf90 -ta=tesla:cc35 -acc saxpy.f90 -c，它编译得很好。下一步是我陷入困境的地方。这个：nvcc -arch=sm_35 -ccbin pgc++ main.cu saxpy.o产生了未解析的外部库，我不确定如何解决它。我如何找到要包含哪些外部库？

符号很可能会丢失，因为您没有将OpenACC或Fortran运行库添加到链接中。此外，当不使用PGI驱动程序进行链接时，您需要添加"nordc"标志。例如：

% pgfortran -c -ta=tesla:cc70,nordc saxpy.f90                                       
% nvcc -arch=sm_70 -ccbin pgc++ -Xcompiler "-ta=tesla:cc70 -pgf90libs" main.cu saxpy.o
% a.out
2.000000, 2.000000

不过，我建议使用pgfortran进行链接，这样您就可以使用RDC，而不需要添加Fortran运行库：

% nvcc -arch=sm_70 -ccbin pgc++ -c main.cu
% pgfortran -Mcuda -ta=tesla:cc70 -Mnomain saxpy.f90 main.o
saxpy.f90:
% a.out
2.000000, 2.000000

相关内容

最新更新

热门标签：