我有一些内存已分配在设备上,它只是一个大小为H * W * sizeof(float)的单一malloc。cudaMemcpy2D共享内存拷贝
这是表示H * W矩阵。
我有一个代码,我需要交换矩阵的象限。我可以使用cudaMemcpy2D来完成此操作吗?我是否需要将spitch和dpitch指定为W * sizeof(float),并仅使用指向矩阵每个象限的指针来完成此操作?
此外,当这些cudaMemcpy谈论的内存区域不重叠 - 是否意味着src和dst根本不能重叠?如果我有一个10字节宽的阵列,我想向左移一次 - 它会失败吗?
由于