要练习用CUDA编码,我做了一个小测试场景,我有三个文件:CUDA错误 - 未指定发射失败
memory.c
举行纯C
代码memory_kernels.h
声明为CUDA内核和功能推出仁仁memory_kernels.cu
定义
什么程序应该做的是创造一个整数数组,将其复制到设备并查询元素。内核将打印出一些细节。
不过,我得到的错误:
Error in memory_kernels.cu at line 43 with error code "unspecified launch failure"
三个文件的源代码给出如下:
/**
* memory.c
*
* Test copying large arrays to device
* and printing from kernel
*/
/* Include standard libraries */
#include <stdlib.h>
#include <stdio.h>
/* Include local header files */
#include "memory_kernels.h"
int main() {
/* Size of array */
int i, N = 1024;
/* Array */
int *intArr = (int *) malloc(N * sizeof(int));
/* Fill array */
for(i = 0; i < N; i++) {
intArr[i] = i;
}
/* Run CUDA code */
cuda_mem(&intArr);
/* Clean up device */
cudaDeviceReset();
/* Everything done */
exit(EXIT_SUCCESS);
}
/**
* memory_kernels.h
*
* Declarations for CUDA kernels
*/
/* Determine compiler */
#ifdef __cplusplus
#define EXTCFUNC extern "C"
#else
#define EXTCFUNC extern
#endif
#ifndef KERNELS_H
#define KERNELS_H
/* Standard libraries (only needed for debugging) */
#include <stdio.h>
/* Include CUDA header files */
#include <cuda.h>
#include <cuda_runtime.h>
#define CUDA_CALL(x) do { if((x) != cudaSuccess) { \
printf("Error in %s at line %d with error code \"%s\"\n",__FILE__,__LINE__,cudaGetErrorString(x)); \
exit(x);}} while(0)
/* Device globals */
__device__ int *d_intArr;
/* Device kernels */
__global__ void mem();
/* Host access functions */
EXTCFUNC void cuda_mem(int **intArr);
#endif
/**
* memory_kernels.cu
*
* CUDA kernel implementations
*/
/* Include header file */
#include "memory_kernels.h"
__global__ void mem() {
int i = threadIdx.x;
int a = d_intArr[i];
printf("i = %d a = %d\n",i,a);
}
/* Determine compiler */
#ifdef __cplusplus
#define EXTCFUNC extern "C"
#else
#define EXTCFUNC extern
#endif
/**
* cuda_mem()
*
* Test copying large array to device
* and printing from kernel
*/
EXTCFUNC void cuda_mem(int **intArr) {
/* Local variables */
int N = 1024;
/* Initialise device variables */
CUDA_CALL(cudaMalloc((void **) &d_intArr, sizeof(int) * N));
/* Copy to device initial values */
CUDA_CALL(cudaMemcpy(d_intArr, *intArr, sizeof(int) * N, cudaMemcpyHostToDevice));
/* Run kernel */
mem <<< 1,N >>>();
CUDA_CALL(cudaPeekAtLastError());
CUDA_CALL(cudaDeviceSynchronize());
/* Free local scoped dynamically allocated memory */
CUDA_CALL(cudaFree(d_intArr));
}
编译与done以下命令:
nvcc -c -o memory.o memory.c -arch=sm_20
nvcc -c -o memory_kernels.o memory_kernels.cu -arch=sm_20
nvcc -o memory memory.o memory_kernels.o -arch=sm_20
在NVIDIA®(英伟达™)Tesla M2050上运行CUDA 4.0。计算能力2.0需要在内核中使用printf()
。
在四处寻找解决方案后,错误代码表明在从全局内存读取时,内核中存在分段错误。但是,我正在启动与数组大小相同的线程数。
经过实验,我有一种感觉,错误是由于将intArr
复制到设备造成的。也许我正在把我的指针混淆起来?
我明白如果文件结构有点奇怪,但它是一个较大程序的一部分,但我已将错误减少到这个较小的情况。
.H持有声明和.C持有的定义。 –
啊,是的,对不起。让我编辑它。 – gobbledygook88
未指定的启动错误通常意味着内核内存访问超出界限。你有没有试过用cuda-memcheck运行代码? – talonmies