nvidia

    4热度

    1回答

    我有两个程序。唯一的区别是使用常量内存来存储输入,而另一个使用全局内存。我想知道为什么全局内存比常量内存更快?他们都计算dot产品btw 2个矩阵 #include<cuda_runtime.h> #include<cuda.h> #include<stdio.h> #include<stdlib.h> #define intMin(a,b) ((a<b)?a:b) //Threads

    1热度

    2回答

    我很困惑,为什么我的纹理版本比我的全局内存的版本更慢,因为质地版本应该充分利用空间局部性慢纹理内存版本。我正试图在下面的情况下计算点积。因此,如果一个线程访问索引i,则其邻居应访问i + 1。因此,我们看到空间局部性。 下面是纹理内存版本: #include<cuda_runtime.h> #include<cuda.h> #include<stdio.h> #include<stdlib.

    0热度

    1回答

    在下面的代码中,我首先将名为ref的纹理绑定到全局内存中名为gpu的数组。然后我调用一个名为getVal的函数,其中我首先将gpu [1]的值设置为5,然后使用绑定纹理使用tex1Dfetch(ref,1)读取它。但是,在这种情况下,tex1Dfetch()不显示gpu [5]的更改值,而是显示旧值。 然后,我调用另一个名为getagain的函数,它只是再次读取tex1Dfetch(ref,1)。

    1热度

    3回答

    我正在尝试编译某人发给我的cuda项目。虽然编译阶段通过,但链接阶段失败。下面是错误的一个示例: Error 298 error LNK2005: "int __cdecl compare_ints(void const *,void const *)" ([email protected]@[email protected]) already defined in 3level_1.cu.obj

    6热度

    1回答

    我正在尝试编写一个小实用程序,用于启用/禁用Windows 7下的显示器和nVidia图形卡。 (即“将桌面扩展到此显示器上”等) 原因是,我的nVidia Geforce GTX 480有三个输出(2x DVI,1x Mini-HDMI),但只允许两个在任何给定时间处于活动状态所以当我想切换到我的电视(HDMI)显示器时,我需要启用/禁用显示器。 Win32 API函数EnumDisplayDe

    7热度

    1回答

    我对GPU如何执行同步有一些疑问。 据我所知,当一个经纱遇到障碍(假设它在OpenCL中),并且它知道同一组的其他经纱尚未到达那里。所以它必须等待。但在等待期间,这种扭曲究竟做了什么? 它仍然是一个活跃的扭曲?或者它会做一些空操作? 正如我注意到的,当我们在内核中进行同步时,指令的数量会增加。我不知道这个增量的来源是什么。同步分解成许多更小的GPU指令吗?或者因为空转经纱执行一些额外的指示? 最后

    1热度

    2回答

    我很难找到一种方法来强制我想在我的C#程序中显示分辨率/时间。我正在使用GeForce 210图形卡运行Windows 7。我目前实现这些自定义分辨率的方法是使用驱动程序GUI手动添加自定义分辨率,然后使用Windows调用更改为这些分辨率,但我需要一种实时添加新自定义分辨率的方法。我查看了NVAPI,但我无法找到一种方法来做到这一点。我也研究了图形驱动程序的命令行工具,但是我无法使它工作。我最后

    0热度

    1回答

    我首先通过CUDA与我的(现在老化的)NVIDIA 9800GT 512MB进入GPGPU。看来这些日子我的GPU并没有削减它。 我特别感兴趣的是OpenCL,而不是CUDA或StreamSDK,尽管关于这两者是否值得追求的一些信息会很好。 我的预算约为150英镑加/减50英镑。我有点不在GPU上最适合科学计算(尤其是流体模拟和3D医学图像处理)的循环中。 ATI与NVIDIA的比较也许会有帮助,

    3热度

    1回答

    几个月前我问过这个问题,但我遇到了另一个障碍,我希望有人能够有一个洞察。这是以前的线程:Detecting if the monitor is powered off 我想弄清楚显示器的电源状态,特别是通过HDMI插入的电视机。我使用nVidia ION视频卡运行Ubuntu 10.10。这些电脑将运行一些数字标牌,并且我需要确保在营业时间内电视机已接通电视。我有一个可用的Python脚本控制红外

    4热度

    2回答

    在NVIDIA®(英伟达™)Fermi架构(cuda文档文件夹中的文件Compute_profiler.txt)中查看性能计数器的名称时,我注意到对于L2缓存未命中,有两个性能计数器:l2_subp0_read_sector_misses和l2_subp1_read_sector_misses。他们说这些是为了两片L2。 为什么他们有两片L2?与流式多处理器架构有任何关系吗?这个部门对表演的影响是