你可以通过拷贝内核来传递这个结构。 请记住,在Fermi上的前费米卡4KB上传递给内核的参数的总大小不得超过256B。
因此,您必须使用cudaMalloc来分配设备内存,而不是您在结构中设置指向设备内存的指针。最后,你通过拷贝将你的结构传递给内核。
我强烈建议您避免在C++代码中使用此结构。取而代之的
struct kernel_data {
double *A;
double *B;
double *C;
const int *A_dims;
const int *B_dims;
int C_dims[2];
};
你应该做这样的事情
class DeviceData{
public:
DeviceData(...){//Do cudaMalloc here}
~DeviceData(...){//Do cudaFree here}
private:
double *_A;
int _dims;
};
这个类将保持设备上可用的数据,这是异常安全。 比你可以实现一个包装,可以传递给内核
class DeviceDataWrapper{
public:
__host__ DeviceDataWrapper(DeviceData& device):
_A(device._A),
_dims(device._dims)
{}
__forceinline__ __device__ double* data(){return _A;}
__forceinline__ __device__ int dims()const{return _dims;}
private:
double *_A;
int _dims;
}
,然后调用内核以这种方式
__global__ void myKernel(DeviceDataWrapper a, DeviceDataWrapper b, DeviceData2Wrapper c){
//do something like a.data()[0] = 1;
}
DeviceData A,B;
DeviceData2 C;
myKernel<<< >>>(A,B,C);
该结构的副本将太大,更不用说256个字节的尺寸(以及限制只适用于计算1.x能力的硬件)。 – talonmies
这只是一个提醒,如果你建立的分层结构,可以经常达到限制。 –