gpu

    2热度

    1回答

    我试图让使用NVCC选项 --ptxas-options=v我CUDA内核有关的寄存器使用情况的信息,并同时与全球功能一切正常,我有一些困难由于 ptxas info : Used N registers 线设备那些缺少在输出中。我试图使用noinline关键字,并将它们保存在另一个文件中,与调用全局函数有关,因为我认为NVCC报告了全局函数的全部注册使用情况,包括内联后的被调用设备的全局函数,但

    2热度

    1回答

    我用Python比较了theano(CPU),theano(GPU)和Scikit-learn(CPU)的处理时间。 但是,我得到了奇怪的结果。 这里看看我绘制的图。 处理时间比较: 你可以看到的结果scikit学习比theano(GPU)更快。 我检查它的经过时间的程序是从一个有n * 40个元素的矩阵计算欧几里德距离矩阵。 这是代码的一部分。 points = T.fmatrix("point

    1热度

    1回答

    我们正在寻找与slurm salloc GPU分配一些意见。目前,给定: % salloc -n 4 -c 2 -gres=gpu:1 % srun env | grep CUDA CUDA_VISIBLE_DEVICES=0 CUDA_VISIBLE_DEVICES=0 CUDA_VISIBLE_DEVICES=0 CUDA_VISIBLE_DEVICES=0 但是,我们希望不仅仅

    0热度

    1回答

    我通过mxnetR在Windows 10 简单的问题是,如果mx.mlp与mx.gpu在GPU使用多个内核启动GPU计算。我似乎不... 也作为一个测试,我写了一个简单的mx.mlp程序,与doParallel。但它似乎不是运行在多个核心的程序。只有1核心的GPU使用增加。 请给我一些关于如何在GPU中使用多个内核的想法,以便通过mx.gpu使mx.mlp最大化GPU计算的价值。

    1热度

    1回答

    我现在正在微调VGG-Face(非常大的型号),其中有8个TITAN Xp GPU可用。但是,当我增加batch_size时,Caffe会发生内存不足错误。以下是我所做的: 首先,batch_size在训练阶段设置为40,并且它在单个GPU上正常工作。选择的GPU几乎100%被利用。 然后,我增加batch_size 128使用 './build/tools/caffe train -solver

    -1热度

    1回答

    我想在张量流中训练一个神经网络,但是我的权重数组足够大,我正在运行到2GB GraphDef限制。在这种情况下,我最好的办法是什么? 注意:我不是真的使用tensorflow的全部功能(例如我的网络没有优化器)。相反,我只是使用tensorflow作为在GPU上执行一些基本阵列操作的一种方式。

    2热度

    2回答

    我沿着D维有一个非均匀的矩形网格,网格上有一个逻辑值V的矩阵,以及查询数据点X的矩阵。网格点的数量在不同维度上是不同的。 我跑插值多次为同一电网G和查询X,但对于不同的值V. 目标是预先计算的指标和权重插补和重用他们,因为他们总是一样。 这是一个2维的例子,我必须在循环中每次计算索引和值,但我只想在循环之前计算一次它们。我保留我的应用程序中的数据类型(大多数是单个和逻辑gpuArrays)。 %

    2热度

    2回答

    我想为10级图像分类任务训练一个简单的多层感知器,这是Udacity深度学习课程任务的一部分。更确切地说,任务是对各种字体所呈现的字母进行分类(数据集称为notMNIST)。 我最终得到的代码看起来相当简单,但无论我在训练期间总是获得非常低的GPU使用率。我用GPU-Z测量负载,并显示只有25-30%。 这里是我当前的代码: graph = tf.Graph() with graph.as_de

    0热度

    1回答

    我用ffmpeg与h264_nvenc编解码器转换视频,目前我注意到nvidia-smi命令显示GPU利用率低于20%。 我该如何利用更多的GPU并加快这个过程?

    1热度

    1回答

    我想实现KNN机器学习模型,我不能使用GPU设备运行我的代码。 我不能同时运行CPU设备,因为我的数据库是一个形状为[1500,2,1000,6]的4D numpy数组,它需要很长时间才能完成运行。 已经安装了CUDA和CuDNN。 我的代码是: # Placeholders with tf.device('/gpu:0'): x_data_train = tf.placeholde