如何使用CUDA C添加矩阵C

我正在写一个关于添加2个矩阵A和B的元素的简单代码;代码非常简单，它的启发来自CUDA C Programming Guide第2章给出的例子。如何使用CUDA C添加矩阵C

#include <stdio.h> 
#include <stdlib.h> 

#define N 2 

__global__ void MatAdd(int A[][N], int B[][N], int C[][N]){ 
      int i = threadIdx.x; 
      int j = threadIdx.y; 

      C[i][j] = A[i][j] + B[i][j]; 
     } 


int main(){ 

int A[N][N] = {{1,2},{3,4}}; 
int B[N][N] = {{5,6},{7,8}}; 
int C[N][N] = {{0,0},{0,0}};  

int (*pA)[N], (*pB)[N], (*pC)[N]; 

cudaMalloc((void**)&pA, (N*N)*sizeof(int)); 
cudaMalloc((void**)&pB, (N*N)*sizeof(int)); 
cudaMalloc((void**)&pC, (N*N)*sizeof(int)); 

cudaMemcpy(pA, A, (N*N)*sizeof(int), cudaMemcpyHostToDevice); 
cudaMemcpy(pB, B, (N*N)*sizeof(int), cudaMemcpyHostToDevice); 
cudaMemcpy(pC, C, (N*N)*sizeof(int), cudaMemcpyHostToDevice); 

int numBlocks = 1; 
dim3 threadsPerBlock(N,N); 
MatAdd<<<numBlocks,threadsPerBlock>>>(A,B,C); 

cudaMemcpy(C, pC, (N*N)*sizeof(int), cudaMemcpyDeviceToHost); 

int i, j; printf("C = \n"); 
for(i=0;i<N;i++){ 
    for(j=0;j<N;j++){ 
     printf("%d ", C[i][j]); 
    } 
    printf("\n"); 
} 

cudaFree(pA); 
cudaFree(pB); 
cudaFree(pC); 

printf("\n"); 

return 0; 
}

当我运行它，我不断收到初始矩阵C = [0 0; 0 0]而不是添加2个矩阵A和B的元素（i，j）;我以前做过关于添加两个数组元素的另一个例子，它似乎工作正常;然而这次我不知道为什么它不起作用。

我相信cudaMalloc命令出了问题，我真的不知道还有什么可能。

任何想法？

来源

2014-11-03 Federico Gentile

首先添加[适当的cuda错误检查]（http://stackoverflow.com/questions/14038589/what-is-the-canonical-way-to-check-for-errors-using-the-cuda-runtime -api）到您的代码。您在设备上创建2D矩阵的方法不会按原样运行。由于在设备上创建2D矩阵时遇到困难，因此经常建议您避免此问题，并将矩阵平铺为1D，并使用索引/指针算术来模拟2D访问。（你的指针分配“pA”等等，目前基本上都是一维的。） – 2014-11-03 16:09:31

你可以试试'MatAdd <<< numBlocks，threadsPerBlock >>>（pA，pB，pC）;'？ – francis 2014-11-03 17:10:51

MatAdd<<<numBlocks,threadsPerBlock>>>(pA,pB,pC);而不是MatAdd<<<numBlocks,threadsPerBlock>>>(A,B,C);解决了这个问题。

的原因是A,B和C被分配在CPU上，而pA,pB和pC分配GPU的使用CudaMalloc()。一旦pA,pB和pC被分配，该值由cudaMemcpy(pA, A, (N*N)*sizeof(int), cudaMemcpyHostToDevice);

然后从CPU到GPU发送时，相加在GPU上执行的，也就是与pA,pB和pC。要使用printf，结果pC从GPU到CPU通过cudaMemcpy(C, pC, (N*N)*sizeof(int), cudaMemcpyDeviceToHost);

发想的那样，如果CPU不能看到pA和GPU无法看到A。

来源

2014-11-03 17:36:13 francis

现在，我读到这是非常清楚的...非常感谢你帮助我！ – 2014-11-03 17:43:14

如何使用CUDA C添加矩阵C

回答

相关问题