multi-gpu

5热度

2回答

我是一个多GPU编程的新手，我有一些关于多GPU计算的问题。举例来说，让我们看看点积产品的例子。我正在运行一个创建2个大数组A [N]和B [N]的CPU线程。由于这些阵列的大小，我需要将他们的点积计算分割成两个GPU，两个都是Tesla M2050（计算能力2.0）。问题是我需要在由我的CPU线程控制的do循环内多次计算这些点积。每个点积都需要前一个的结果。我已经读过关于创建2个不同的线程来分别

1热度

1回答

CUDA OPENGL互操作性：cudaGLSetGLDevice

继CUDA 4.0编程之后，我在调用任何其他运行库之前调用cudaGLSetGLDevice 。但接下来的cuda调用cudaMalloc会返回“所有支持CUDA的设备忙或不可用”。此外，在NVIDIA论坛（http://forums.nvidia.com/index.php?showtopic=186399）上，一位用户表示： “在多GPU系统中，尽管您将遇到更大CUDA中的缺陷... a）当

2热度

1回答

在Linux中的混合图形

我遇到了Nvidia Optimus实现的Linux，称为bumblebee项目https://github.com/Bumblebee-Project 我在我的笔记本电脑上安装了与Nvidia显卡的大黄蜂。问题是，对于需要使用独立GPU的应用程序，必须通过特殊命令“Optirun”运行。因此，只有在完成此操作后，离散gpu才会开启，否则会在必要时关闭，以节省电力。有没有一种方法来识别应用程序是

1热度

2回答

无缝多屏的OpenGL与heteregeneous多GPU配置在Windows XP

呈现在Windows XP（64位），这似乎是不可能的OpenGL渲染，以连接到不同的显卡搭配不同的GPU（例如，两个NVIDIA的两个屏幕不同世代）。在这种情况下发生的情况是，渲染仅在其中一个屏幕中起作用。另一方面，使用Direct3D可以毫无问题地在两个屏幕上进行渲染。任何人都知道这是为什么？或者更重要的是：有没有办法在两个屏幕上使用OpenGL进行渲染？我发现，在Windows 7上渲染工

19热度

1回答

多GPU的基本用法

如何使用两个装置，以改善例如以下代码（矢量的总和）的表现？ “同时”可以使用更多设备吗？如果是，我如何管理不同设备的全局内存上的向量分配？ #include <stdio.h> #include <stdlib.h> #include <math.h> #include <time.h> #include <cuda.h> #define NB 32 #define NT 500

1热度

1回答

OpenCL子缓冲区，为什么很重要？

我尝试实现一个多GPU的OpenCL代码。在我的模型中，GPU必须进行通信并交换数据。我发现（我不记得在哪里，这是一段时间），一种解决方案是处理子缓冲区。任何人都可以尽可能简单地解释为什么子缓冲区在OpenCL中很重要？据我所知，只能使用缓冲区完全相同。非常感谢， Giorgos 补充问题：什么是GPU之间交换数据的最佳方式？

4热度

1回答

MPI接收/收集动态向量长度

我有一个存储结构向量的应用程序。这些结构保存系统中每个GPU的信息，例如内存和千兆位/秒。每个系统上有不同数量的GPU。我有一个程序一次在多台机器上运行，我需要收集这些数据。我对MPI很新，但大部分都能使用MPI_Gather()，但我想知道如何收集/接收这些动态大小的载体。 class MachineData { unsigned long hostMemory; lon

0热度

1回答

需要关于在多个GPU上分发数据的指导

我目前正在开发GPU群集的机器学习工具包。我在多个GPU上测试逻辑回归分类器。我正在使用Master-Worker方法，其中主CPU创建多个POSIX线程并将矩阵分配到GPU中。但我遇到的问题是如何存储不能存储在一台机器上的大型矩阵。是否有任何库或方法在节点间共享数据？

4热度

1回答

有没有办法在windows 7系统中独立执行任务并使用异构多重gpus？

我可以在我的桌面上安装两个混合芯片组/ AMD代gpus;一个6950和4870，并专门为opencl/gpgpu提供一个gpu（4870），消除了视频输出设备或操作系统对显示驱动的考虑，使4870基本上保持深度睡眠或出现/禁用，直到它流处理器被调用？与4870相比，6950是opencl计算中的重量级人物;足够使它能够紧缩数字，并且仍然允许活动的用户会话，甚至是网页浏览。但是，只要我导航到带有

7热度

1回答

CUDA SDK示例在多GPU系统中抛出各种错误

我有一台运行Ubuntu Precise的戴尔Precision Rack，并配备了两个特斯拉C2075和一台Quadro 600显示设备。我最近在桌面计算机上完成了一些测试，现在尝试将东西移植到工作站。由于CUDA不存在，我根据this guide进行了安装，并根据this suggestions修改了SDK Makefiles。我现在面临的是，没有一个样本（我测试了10个不同的样本）正在运