2017-09-22 132 views
0

我试图用PyOpenCL作出一个减少总和,类似于这个例子:https://dournac.org/info/gpu_sum_reduction。我试图对所有值为1的矢量求和。第一个元素的结果应该是16384。但是,似乎只有一些要点正在收集。是否需要本地索引?是否有任何竞争条件(当我运行两次结果是不一样的)?下面的代码有什么问题?OpenCL中本地和全局内存区别有什么区别?

import numpy as np 
import pyopencl as cl 

def readKernel(kernelFile): 
    with open(kernelFile, 'r') as f: 
     data=f.read() 
    return data 

a_np = np.random.rand(128*128).astype(np.float32) 
a_np=a_np.reshape((128,128)) 
print(a_np.shape) 

device = cl.get_platforms()[0].get_devices(cl.device_type.GPU)[0] 
print(device) 
ctx=cl.Context(devices=[device]) 
#ctx = cl.create_some_context() #ask which context to use 
queue = cl.CommandQueue(ctx) 
mf = cl.mem_flags 

a_g = cl.Buffer(ctx, mf.READ_WRITE | mf.COPY_HOST_PTR, hostbuf=a_np) 

prg = cl.Program(ctx,readKernel("kernel2.cl")).build() 

prg.test(queue, a_np.shape, None, a_g) 

cl.enqueue_copy(queue, a_np, a_g).wait() 
np.savetxt("teste2.txt",a_np,fmt="%i") 

内核是:

__kernel void test(__global float *count){ 
    int id = get_global_id(0)+get_global_id(1)*get_global_size(0); 
    int nelements = get_global_size(0)*get_global_size(1); 

    count[id] = 1; 
    barrier(CLK_GLOBAL_MEM_FENCE); 

    for (int stride = nelements/2; stride>0; stride = stride/2){ 
     barrier(CLK_GLOBAL_MEM_FENCE); //wait everyone update 
     if (id < stride){ 
      int s1 = count[id]; 
      int s2 = count[id+stride]; 
      count[id] = s1+s2; 
     } 
    } 
    barrier(CLK_GLOBAL_MEM_FENCE); //wait everyone update 
} 

回答

0

的问题是,你的内核中实现一个工作组内做的减少和有隐含schedulled许多工作组。

取决于GPU,每个工作组的最大工作项目数量不同。对于Nvidia 1024,AMD和Intel 256(英特尔在更早的GPU中有512)。

让我们假设在这个例子中,GPU上每个工作组的最大工作项是256.在这种情况下,最大二维worgroup大小可以是16x16,所以如果使用矩阵的大小,内核将返回正确的结果。在调度内核时,使用原始大小为128x128而不指定本地大小的实现计算出,对于您和您将获得全局大小128x128和本地大小(非常可能)16x16,这意味着正在调度8个worgroup。 在当前的内核中,每个工作组都从不同的id开始计算,但索引被减少到0,所以你有竞争条件,因此每次运行都会产生不同的结果。

您有2个选项来解决这个问题:

  1. 重写内核一个工作组中的所有计算以及与全球,当地的大小安排它:(16×16),(16,16)或任何你最大的工作每个工作组设备上的项目有
  2. 使用全局,本地大小:(128x128),(16x16),并且每个工作组将计算其结果,然后在cpu端将必须总结每个工作组以获得最终结果。

对于128x128,第一个选项将是首选,因为它应该执行得更快,应该更直接地实现。