cuda

    1热度

    1回答

    如何编写CUDA代码以在计算机上打印支持CUDA的设备。

    0热度

    1回答

    typedef struct { long long int mem_0; } Tuple1; typedef struct { int tag; union { struct Tuple1 Union0Case0; } data; } Union0; C:/Users/Marko/Documents/Visual Studio 20

    1热度

    1回答

    我是CUDA编程的初学者,有一个问题。 当我通过值传递参数,如下所示: __global__ void add(int a, int b, int *c) { // some operations } 由于可变一个和b被传递到核函数添加如在函数调用栈复制的值,我猜到一些存储器空间将需要复制。 如果我是正确的,那些参数在GPU或Host的主内存中复制 的额外内存空间? 我想知道这个问

    -1热度

    2回答

    我有一个很大的代码库,可以通过CUDA内核执行RGB到YUV的颜色转换。由于我正在进行大量的并行转换,因此我使用了流(可能与此处相关)。该代码在Linux上运行,它在Quadro K4200 GPU上运行良好,但最近我有一个新的Quadro P4000 GPU,在拨打cudaDeviceSynchronize()时,我经常获得cudaErrorUnknown。在发生这种情况之前,我所做的唯一事情就

    0热度

    1回答

    我一直在成功使用GPU支持OpenCV一段时间,但是,我遇到了一个我似乎无法修复的情况。在用VS 2013和CUDA 8.0构建OpenCV 3.3之后,OpenCV cpu和gpu似乎可以在我的几台测试机器GTX 750 Ti和GTX 950M(都使用Windows 10)上正常工作。在另一台装有GTX 1050 Ti的机器上,CPU调用工作正常,但是在我的第一个OpenCV-cuda函数调用中

    0热度

    1回答

    我想运行一个简单的测试用例,其中动态分配的数组A被定义为extern并使用OpenACC上传到GPU。全部使用PGI编译器。 我header.h文件: extern int *A; #pragma acc declare create(A) 然后,我header.c实现: int *A; #pragma acc declare copyin(A) 然后,在main.c

    0热度

    1回答

    我正在尝试学习CUDA。我在基于GPU的文章this的帮助下开始尝试矩阵乘法。 我的主要问题是我无法理解如何访问内核中的2D数组,因为访问2D数组与矩阵[i] [j]有点不同。 这是我坚持的部分: for (int i = 0; i < N; i++) { tmpSum += A[ROW * N + i] * B[i * N + COL]; } C[ROW * N + COL] =

    0热度

    1回答

    与cuda 3.5兼容的旧源代码与新的cuda版本不兼容,例如, 7.5。例如, cuda_runtime_api.cc: In function ‘cudaError_t cudaMemcpyToSymbol(const char*, const void*, size_t, size_t, cudaMemcpyKind)’: cuda_runtime_api.cc:556:141: erro

    0热度

    1回答

    据我了解CUDA的所有版本都是向下兼容的,但是通过安装CUDA和用TF建立一个虚拟环境的全过程后出现这种情况时,我import tensorflow ImportError: libcublas.so.8.0: cannot open shared object file: No such file or directory 这显然意味着Tensorflow正在寻找CUDA 8.0,但没有找到

    0热度

    1回答

    我正在使用动态并行机制,我想创建一个模板内核,给出一个对象指针+成员函数指针执行函数。这是一个最小(未)工作实例中,具有-arch = compute_35 -dlink标志编译, #include <iostream> struct A { int i; __device__ void clear() { i = 0; } }; t