memory-bandwidth

    4热度

    1回答

    从线程调度和内存带宽的角度来看,这两个块大小(1024x1与32x32)是如何执行的?这两种块尺寸的性能有任何预期的差异?请注意,每个块都使用1024个线程。

    3热度

    4回答

    我有一个必须转换为整数的字节数组(unsigned char *)。整数用三个字节表示。这是我做了什么 //bytes array is allocated and filled //allocating space for intBuffer (uint32_t) unsigned long i = 0; uint32_t number; for(; i<size_tot; i+=3){

    1热度

    1回答

    我想知道我的CUDA内核在内存带宽利用率方面的表现如何。我在带有ECC的Tesla K40c上运行它们。 bandwidthTest实用程序给出的结果是否与可达到的峰值很接近?否则,如何编写一个类似的测试来寻找峰值带宽? 我的意思是设备内存带宽。

    1热度

    1回答

    假设我有执行跨距存储器访问如下内核: __global__ void strideExample (float *outputData, float *inputData, int stride=2) { int index = (blockIdx.x * blockDim.x + threadIdx.x) * stride; outputData[index] = in

    0热度

    1回答

    编辑:我的第一个代码示例是错误的。固定更简单。 我实现用于大向量和矩阵之间的代数操作的C++库。 我在x86-x64 CPU上发现OpenMP并行向量添加,点积等不会比单线程速度快。并行操作比单线程速度快1%-6%。 这是因为内存带宽限制(我认为)。 所以,问题是,有没有真正的代码的性能优势是这样的: void DenseMatrix::identity() { assert(heig

    0热度

    1回答

    nVidia GTX980拥有224GB/s的带宽和7Gbps的内存时钟。它的总线宽度是256位。 我们可以计算从GDDR5并行加载多少最大/最小数据? 我可以从224GB/s除以7Gbps得出答案吗?

    3热度

    3回答

    假设我有这样的结构c++: class A{ public: B b; } class B{ public: C c; } class C{ public: double x; double y; double z; double s; function Usize(){ s

    8热度

    3回答

    仅供参考,下面是我来自Nvidia得到 http://www.geforce.com/hardware/desktop-gpus/geforce-gtx-680/specifications http://www.geforce.com/hardware/desktop-gpus/geforce-gtx-titan/specifications 注意规格的显存速度/显存频率是一样的在他们的网站上都

    -1热度

    1回答

    只需要了解与PCI Express传输速率相关的GPU带宽的一些说明。这会帮助我了解如何卡图形的实际工作... 所以来计算带宽: Memory Speed x Bus Width/8 = Bandwidth (B/s) 所以,如果我的显卡具有总线宽度为256和内存速度为900MHz的上GDDR3 Bandwidth = 900MHz * 256/8 = 28GB/s (28GB/s * 2 =

    5热度

    2回答

    我的CPU是具有2个核和4个螺纹的酷睿i3 330M。当我在终端执行命令cat /proc/cpuinfo时,就像我有4个CPUS。当我使用OpenMP功能get_omp_num_procs()我也得到4. 现在我有一个标准的C++向量类,我的意思是一个固定大小的双数组类,不使用表达式模板。我仔细并行了我班的所有方法,并获得了“预期”的加速。 的问题是:我可以猜测的预期增速在这样一个简单的例子?例