为什么有多个GPU的TensorFlow会给我这个错误？

ResourceExhaustedError (see above for traceback): OOM when allocating tensor with shape[20000,20,20,20,16] [[Node: Conv3D = Conv3D[T=DT_FLOAT, padding="SAME", strides=[1, 1, 1, 1, 1], 
_device="/job:localhost/replica:0/task:0/gpu:0"](Reshape, Variable/read)]] [[Node: Mean_2/_23 = _Recv[client_terminated=false, recv_device="/job:localhost/replica:0/task:0/cpu:0", send_device="/job:localhost/replica:0/task:0/gpu:0", send_device_incarnation=1, tensor_name="edge_42_Mean_2", tensor_type=DT_FLOAT, 
_device="/job:localhost/replica:0/task:0/cpu:0"]()]]

来源

2017-08-28 Aldo Battista

请学会提供[MCVE。一个错误消息的简单转储可能不足以理解错误或您不明白的消息的哪一部分。 –

OOM分配与形状张量时[20000,20,20,20,16]

野生猜测：您的批量大小设置为20000不适合的存储您的设备（OOM =内存不足）。（仅供参考，浮球张量需要20000 * 20 * 20 * 20 * 16 * 4 = 9.54的内存GB的）没有代码，不过，这就是所有我能说的。

我的第二个野生的猜测是，你试图定义一个大批量并让它设备之间自动拆分，但是这并不怎么Tensorflow与多个设备数据并行工作。看看Distributed Tensorflow guide的例子，了解如何做到这一点。

请重新编写您的问题，以便它包含一个可运行的示例以重现您的问题。

来源

2017-08-28 13:44:04 GPhilo

改善问题的请求应作为评论发布，而不是作为回答。 –

关于它的评论已经存在。我的回答是：它是一个解决他的问题的建议，附上了更多细节的请求，以进一步提高我的答案。 – GPhilo

为什么有多个GPU的TensorFlow会给我这个错误？

回答

相关问题