我正尝试在GPU上使用共享内存将256x256数据阵列与滤波器进行卷积,3x3。我知道我要将这个数组分块,然后在每个模块中应用这个过滤器。这最终意味着沿着边缘重叠的块和一些填充将需要在没有数据的边缘周围进行,以便过滤器正常工作。在CUDA中使用滤波器进行卷积,阵列
int grid = (256/(16+3-1))*(256/(16+3-1))
其中256是我的阵列的长度或宽度,图16是在共享存储器中的我的块的长度或宽,3是我的过滤器的长度或宽度,并且我减一,使之所以它甚至。
int thread = (16+3-1)*(16+3-1)
现在我把我的内核< < >>(输出,输入,256) 输入和输出大小为256的数组* 256
__global__ void kernel(float *input, float *output, int size)
{
__shared__ float tile[16+3-1][16+3-1];
blockIdx.x = bIdx;
blockIdy.y = bIdy;
threadIdx.x = tIdx;
threadIdy.y = tIdy
//i is for input
unsigned int iX = bIdx * 3 + tIdx;
unsigned int iY = bIdy * 3 + tIdy;
if (tIdx == 0 || tIdx == width || tIdy == 0 || tIdy == height)
{
//this will pad the outside edges
block[tIdy][tIdx] = 0;
}
else
{
//This will fill in the block with real data
unsigned int iin = iY * size + iX;
block[tIdy][tIdx] = idata[iin];
}
__syncthreads();
//I believe is above is correct; below, where I do the convolution, I feel is wrong
float result = 0;
for(int fX=-N/2; fX<=N/2; fX++){
for(int fY=-N/2; fY<=N/2; fY++){
if(iY+fX>=0 && iY+fX<size && iX+fY>=0 && iX+fY<size)
result+=tile[tIdx+fX][tIdy+fY];
}
}
output[iY*size+iX] = result/(3*3);
}
当我运行代码,如果我运行卷积部分,会出现内核错误。任何见解?还是建议?
根据您拥有的GPU和您试图运行共享内存分配的线程数可能太大。您可能需要重新考虑实施,因为您无法运行具有如此大规模分配的许多线程。 – 2010-10-01 18:30:01
CUDA SDK有几个卷积的例子。您可能想与之比较,看看您的实现有何不同。 CUFFT库也是另一种可能性。 – peakxu 2011-03-01 18:19:21