2016-12-15 184 views
1

我们用下面的硬件配置使用tensorflow运行多个GPU训练:培训tensorflow崩溃计算机

ubuntu 16.04 
cuda 8 
cudnn 5.1 
8 titan X pascal 
220GB of memory 

培训代码是基于苗条发表在tensorflow /型号的github仓库。

如果我们不使用所有GPU(最多4个,测试过),我们就可以运行训练代码。但是,一旦我们使用全部8个GPU,电脑就会崩溃。

这可能是什么原因?

+0

你想过它是如何崩溃的更多信息,以及如何重现该问题? –

+0

从现在不知道。由于我们没有任何日志。每次我们需要重新启动计算机。我们怀疑有内存问题。 – jrabary

回答