培训tensorflow崩溃计算机

我们用下面的硬件配置使用tensorflow运行多个GPU训练：培训tensorflow崩溃计算机

ubuntu 16.04 
cuda 8 
cudnn 5.1 
8 titan X pascal 
220GB of memory

培训代码是基于苗条发表在tensorflow /型号的github仓库。

如果我们不使用所有GPU（最多4个，测试过），我们就可以运行训练代码。但是，一旦我们使用全部8个GPU，电脑就会崩溃。

这可能是什么原因？

2016-12-15 jrabary

你想过它是如何崩溃的更多信息，以及如何重现该问题？ –

从现在不知道。由于我们没有任何日志。每次我们需要重新启动计算机。我们怀疑有内存问题。 – jrabary

我有一个类似的问题，虽然对我来说，一旦我使用多个GPU就会崩溃。对我们来说，修复被降级Linux内核2.6.32到

2017-02-05 02:27:36

奇怪的是，我们必须更改内核版本才能使其工作。也许，他们解决了最新版本的问题。 – jrabary

回答