-2
我是新来Numba和CUDA,也做了测量,CUDA即时编译功能比较numpy的对一些基本的例子。例如,有望加速Numba/CUDA与numpy的
@cuda.jit("void(float32[:])")
def gpu_computation(array):
pos = cuda.grid(1)
if pos < array.size:
array[pos] = array[pos] ** 2.6
相比单线程
def cpu_computation(array):
array = array ** 2.6
return array
与
n=1000000
array = np.linspace(0, 100, num=n, dtype=np.float32)
threads per block = 32
blocks per grid = 31250
我获得与GPU约3倍的速度提升。这也是我在执行矩阵乘法(在Numba文档中找到的基本版本和智能版本)时所获得的结果。优化复制到/从设备没有帮助。
是这种加速预期?我预计会有更多的数量级。我的机器:带有GeForce GTX 775M 2048 MB和CUDA 7.5.30的Mac OSX。
谢谢,看起来很重要。我更新了上面的代码片段,以显示我现在正在测量的内容,但到目前为止我没有看到任何区别。 – jam123