gpgpu

    1热度

    1回答

    运行OpenCL程序的正常方式是包含运行时编译的openCL内核(联机编译)。 但我见过编译OpenCL之前的二进制文件的例子,称为离线编译。我意识到了这些缺点(降低了硬件间的兼容性)。 以前在http://www.fixstars.com/en/有一个离线编译器,但它似乎不再可用。 那么是否有可用于OpenCL的离线编译器,特别是对于基于NVIDIA的显卡?

    4热度

    2回答

    是否可以在不使用X服务器的情况下在A10-7800上启用OpenCL?我有一个用于GPGPU编程的Linux机器。一个独立的GEForce 740卡用于X服务器和我开发的运行OpenCL & Cuda程序。我还想选择在APU的集成GPU内核上运行OpenCL代码。 我到目前为止所读到的一切都意味着,如果我想为OpenCL使用APU,我必须安装Catalyst和AFAIK,这意味着将它用于X服务器。

    0热度

    1回答

    我目前有一个算法,分析输入直方图,以提取最可能的最大值,也是一个三角洲,决定哪些附近点应被视为同样重要。所以我需要的是获得某个随机分布图的顶部。我想知道是否可以通过简单的数字方式实现GPGPU选项(如OpenCV)。 在此先感谢。

    1热度

    2回答

    Here是在TensorFlow中训练序列到序列模型的非常好的教程。我只是有兴趣知道是否有分布式版本哪些杠杆一套GPU在单台机器获得更好的性能? TensorFlow white paper已经提到,它是可能的培养大量多层回归神经网络(参见图8和“模型平行训练”部分),如Sequence to Sequence Learning with Neural Networks使用。有人知道目前的教程是否

    0热度

    1回答

    我正在使用多个PCIe 3.0扩展卡(GPU和Infiniband互连)。我想知道如何实际管理通道,以及我是否可以通过更改端口或使用某些适配器(16x - > 8x)优化设备。 英特尔Haswell的EP可以管理40车道的PCIe 3.0。在Intel的原理图中,PCIe 3.0控制器似乎分成两个x16和一个x8子桥。 在为Haswell的CPU EP一些商业图表,我们可以读到: 多达40个的PC

    1热度

    1回答

    我很难在GPU 1中运行tensorflow程序。无论我使用CUDA_VISIBLE_DEVICES=1 python program.py还是在程序中使用tf.device('/gpu:1'),我一直都可以使用以下错误: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:900] successful NUMA node read fr

    1热度

    1回答

    我想知道是否可以在两个Titan X GPU之间使用点对点内存传输和内存访问。目前我只有一个GPU,如果有可能,我可能会得到另一个。 我知道在here和here之前询问过类似的问题,但这些问题已超过2年。我问是否有什么新的。

    14热度

    2回答

    我无意中发现没有一次进入“非一致”,并在相关的图形programming.I一直在寻找一个简单而明确的解释 tech papers“相干”记忆,却发现大多是“骨灰级”的论文this类型。我很乐意接受外行人的风格,回答关于GPU架构上的连贯内存,以及它与其他(可能不是连贯的)内存类型的比较。

    1热度

    1回答

    模拟管道程序说我有两个阵列A和B和kernel1,通过打破阵列成不同的组块并执行两个阵列上的一些计算(矢量相加例如)和写入部分结果来C。 kernel1然后继续这样做,直到处理数组中的所有元素。 unsigned int i = blockIdx.x*blockDim.x + threadIdx.x; unsigned int gridSize = blockDim.x*gridDim.x;

    3热度

    1回答

    我的机器的GPU有2 GB的内存。当我第一次运行下面的代码时,我没有遇到任何错误。但是,第二次运行代码时出现内存错误。作为一种短时间的补救措施,我唯一能做的就是使用torch.Tensor.float()将数据转换为float32。但是,问题仍然存在,并且在完成该过程后占用的内存不会被释放,或者该过程在运行时被终止。机器RAM也是这种情况。应该如何防止Torch内存泄漏或释放内存? require