memory-bandwidth

4热度

1回答

CUDA blocksize 1024x1 vs 32x32会有任何性能差异吗？

从线程调度和内存带宽的角度来看，这两个块大小（1024x1与32x32）是如何执行的？这两种块尺寸的性能有任何预期的差异？请注意，每个块都使用1024个线程。

3热度

4回答

我有一个必须转换为整数的字节数组（unsigned char *）。整数用三个字节表示。这是我做了什么 //bytes array is allocated and filled //allocating space for intBuffer (uint32_t) unsigned long i = 0; uint32_t number; for(; i<size_tot; i+=3){

1热度

1回答

CUDA带宽测试获得可达峰值

我想知道我的CUDA内核在内存带宽利用率方面的表现如何。我在带有ECC的Tesla K40c上运行它们。 bandwidthTest实用程序给出的结果是否与可达到的峰值很接近？否则，如何编写一个类似的测试来寻找峰值带宽？我的意思是设备内存带宽。

1热度

1回答

有效存储器带宽

假设我有执行跨距存储器访问如下内核： __global__ void strideExample (float *outputData, float *inputData, int stride=2) { int index = (blockIdx.x * blockDim.x + threadIdx.x) * stride; outputData[index] = in

0热度

1回答

OpenMP和内存带宽限制

编辑：我的第一个代码示例是错误的。固定更简单。我实现用于大向量和矩阵之间的代数操作的C++库。我在x86-x64 CPU上发现OpenMP并行向量添加，点积等不会比单线程速度快。并行操作比单线程速度快1％-6％。这是因为内存带宽限制（我认为）。所以，问题是，有没有真正的代码的性能优势是这样的： void DenseMatrix::identity() { assert(heig

0热度

1回答

GDDR5每个周期可以装载多少数据？

nVidia GTX980拥有224GB/s的带宽和7Gbps的内存时钟。它的总线宽度是256位。我们可以计算从GDDR5并行加载多少最大/最小数据？我可以从224GB/s除以7Gbps得出答案吗？

3热度

3回答

指针的使用是否会导致内存堵塞？

假设我有这样的结构c++： class A{ public: B b; } class B{ public: C c; } class C{ public: double x; double y; double z; double s; function Usize(){ s

8热度

3回答

如何从内存时钟/显存速度的内存带宽

仅供参考，下面是我来自Nvidia得到 http://www.geforce.com/hardware/desktop-gpus/geforce-gtx-680/specifications http://www.geforce.com/hardware/desktop-gpus/geforce-gtx-titan/specifications 注意规格的显存速度/显存频率是一样的在他们的网站上都

-1热度

1回答

有关PCI Express插槽传输速率的GPU带宽说明（v1.x - x16）

只需要了解与PCI Express传输速率相关的GPU带宽的一些说明。这会帮助我了解如何卡图形的实际工作... 所以来计算带宽： Memory Speed x Bus Width/8 = Bandwidth (B/s) 所以，如果我的显卡具有总线宽度为256和内存速度为900MHz的上GDDR3 Bandwidth = 900MHz * 256/8 = 28GB/s (28GB/s * 2 =

5热度

2回答

OpenMP和核/线程

我的CPU是具有2个核和4个螺纹的酷睿i3 330M。当我在终端执行命令cat /proc/cpuinfo时，就像我有4个CPUS。当我使用OpenMP功能get_omp_num_procs()我也得到4. 现在我有一个标准的C++向量类，我的意思是一个固定大小的双数组类，不使用表达式模板。我仔细并行了我班的所有方法，并获得了“预期”的加速。的问题是：我可以猜测的预期增速在这样一个简单的例子？例