我们用下面的硬件配置使用tensorflow运行多个GPU训练:培训tensorflow崩溃计算机
ubuntu 16.04
cuda 8
cudnn 5.1
8 titan X pascal
220GB of memory
培训代码是基于苗条发表在tensorflow /型号的github仓库。
如果我们不使用所有GPU(最多4个,测试过),我们就可以运行训练代码。但是,一旦我们使用全部8个GPU,电脑就会崩溃。
这可能是什么原因?
我们用下面的硬件配置使用tensorflow运行多个GPU训练:培训tensorflow崩溃计算机
ubuntu 16.04
cuda 8
cudnn 5.1
8 titan X pascal
220GB of memory
培训代码是基于苗条发表在tensorflow /型号的github仓库。
如果我们不使用所有GPU(最多4个,测试过),我们就可以运行训练代码。但是,一旦我们使用全部8个GPU,电脑就会崩溃。
这可能是什么原因?
我有一个类似的问题,虽然对我来说,一旦我使用多个GPU就会崩溃。对我们来说,修复被降级Linux内核2.6.32到
更多细节上我们的问题就在这里:https://groups.google.com/a/tensorflow.org/forum/#!topic/discuss/UjB7uP7_MMU
奇怪的是,我们必须更改内核版本才能使其工作。也许,他们解决了最新版本的问题。 – jrabary
你想过它是如何崩溃的更多信息,以及如何重现该问题? –
从现在不知道。由于我们没有任何日志。每次我们需要重新启动计算机。我们怀疑有内存问题。 – jrabary