gpu

2热度

1回答

我试图让使用NVCC选项 --ptxas-options=v我CUDA内核有关的寄存器使用情况的信息，并同时与全球功能一切正常，我有一些困难由于 ptxas info : Used N registers 线设备那些缺少在输出中。我试图使用noinline关键字，并将它们保存在另一个文件中，与调用全局函数有关，因为我认为NVCC报告了全局函数的全部注册使用情况，包括内联后的被调用设备的全局函数，但

2热度

1回答

为什么在GPU上Skyline比Theano更快？

我用Python比较了theano（CPU），theano（GPU）和Scikit-learn（CPU）的处理时间。但是，我得到了奇怪的结果。这里看看我绘制的图。处理时间比较：你可以看到的结果scikit学习比theano（GPU）更快。我检查它的经过时间的程序是从一个有n * 40个元素的矩阵计算欧几里德距离矩阵。这是代码的一部分。 points = T.fmatrix("point

1热度

1回答

如何为每个任务设置1 gpu的slurm/salloc，但让工作使用多个gpus？

我们正在寻找与slurm salloc GPU分配一些意见。目前，给定： % salloc -n 4 -c 2 -gres=gpu:1 % srun env | grep CUDA CUDA_VISIBLE_DEVICES=0 CUDA_VISIBLE_DEVICES=0 CUDA_VISIBLE_DEVICES=0 CUDA_VISIBLE_DEVICES=0 但是，我们希望不仅仅

0热度

1回答

GPU mxnetR windows10

我通过mxnetR在Windows 10 简单的问题是，如果mx.mlp与mx.gpu在GPU使用多个内核启动GPU计算。我似乎不... 也作为一个测试，我写了一个简单的mx.mlp程序，与doParallel。但它似乎不是运行在多个核心的程序。只有1核心的GPU使用增加。请给我一些关于如何在GPU中使用多个内核的想法，以便通过mx.gpu使mx.mlp最大化GPU计算的价值。

1热度

1回答

在Caffe中使用多个具有较大batch_size的GPU时内存不足

我现在正在微调VGG-Face（非常大的型号），其中有8个TITAN Xp GPU可用。但是，当我增加batch_size时，Caffe会发生内存不足错误。以下是我所做的：首先，batch_size在训练阶段设置为40，并且它在单个GPU上正常工作。选择的GPU几乎100％被利用。然后，我增加batch_size 128使用 './build/tools/caffe train -solver

-1热度

1回答

张量流中的非常大的网络

我想在张量流中训练一个神经网络，但是我的权重数组足够大，我正在运行到2GB GraphDef限制。在这种情况下，我最好的办法是什么？注意：我不是真的使用tensorflow的全部功能（例如我的网络没有优化器）。相反，我只是使用tensorflow作为在GPU上执行一些基本阵列操作的一种方式。

2热度

2回答

用于多维线性插值的预计算权重

我沿着D维有一个非均匀的矩形网格，网格上有一个逻辑值V的矩阵，以及查询数据点X的矩阵。网格点的数量在不同维度上是不同的。我跑插值多次为同一电网G和查询X，但对于不同的值V. 目标是预先计算的指标和权重插补和重用他们，因为他们总是一样。这是一个2维的例子，我必须在循环中每次计算索引和值，但我只想在循环之前计算一次它们。我保留我的应用程序中的数据类型（大多数是单个和逻辑gpuArrays）。 %

2热度

2回答

在Tensorflow培训中非常低的GPU使用率

我想为10级图像分类任务训练一个简单的多层感知器，这是Udacity深度学习课程任务的一部分。更确切地说，任务是对各种字体所呈现的字母进行分类（数据集称为notMNIST）。我最终得到的代码看起来相当简单，但无论我在训练期间总是获得非常低的GPU使用率。我用GPU-Z测量负载，并显示只有25-30％。这里是我当前的代码： graph = tf.Graph() with graph.as_de

0热度

1回答

ffmpeg nvenc gpu利用率低于20％

我用ffmpeg与h264_nvenc编解码器转换视频，目前我注意到nvidia-smi命令显示GPU利用率低于20％。我该如何利用更多的GPU并加快这个过程？

1热度

1回答

错误当试图使用GPU与张量流

我想实现KNN机器学习模型，我不能使用GPU设备运行我的代码。我不能同时运行CPU设备，因为我的数据库是一个形状为[1500,2,1000,6]的4D numpy数组，它需要很长时间才能完成运行。已经安装了CUDA和CuDNN。我的代码是： # Placeholders with tf.device('/gpu:0'): x_data_train = tf.placeholde