0
因此,在OpenCL中编写内核非常简单,只需要少量输入Image3D输出一些输出Image3D并对它们执行一些操作即可。只要所有输入和输出图像都适合GPU内存,就很容易。现在通常情况并非如此,因为随着您的分辨率的提高,Image3D的规模不断扩大。 因此,给定一个内核可以让我们说4个输入图像和3个输出图像,那么在适合GPU的区块中处理它们的最佳选择是什么。是否有自动流式传输/缓冲的形式?如何使用OpenCL处理GPU内存过大的图像
最佳这里是指:1)快速,2)小用户编写的代码(两个)
尝试use_host_ptr并计算1/10大小的块,并在需要时添加仅用于内核的1/10大小的临时设备端缓冲区。 –