nvidia

    7热度

    6回答

    所以,我试图编写一些利用Nvidia CUDA架构的代码。我注意到,复制到设备和从设备复制真的伤害了我的整体性能,所以现在我试图将大量数据移动到设备上。由于这些数据被用于多种功能,我希望它是全球性的。是的,我可以通过指针,但我真的很想知道在这种情况下如何使用全局变量。 所以,我有设备功能,要访问设备分配数组。 理想情况下,我可以这样做: __device__ float* global_data;

    5热度

    4回答

    我试图利用常量内存,但我很难搞清楚如何嵌套数组。我拥有的是一系列数据,这些数据可以用于内部数据,但每个条目的数据都不相同。所以基于以下简化代码,我有两个问题。首先,我不知道如何分配数据结构成员指向的数据。其次,由于我不能将cudaGetSymbolAddress用于常量内存,我不确定是否可以传递全局指针(无法用普通的__device__内存)。 struct __align(16)__ data