Q

在谷歌云上运行GPU的错误符号日志ML

2017-09-27 130 views 0 likes

0

我正在尝试使用谷歌云与mlm模式。在谷歌云上运行GPU的错误符号日志ML

当我训练BASIC_GPU模式时，我有很多错误日志。
但是，它运作良好。
我不确定在GPU模式下学习是否正常。

这是错误日志历史记录。
enter image description here

这是打印config.log_device_placement的一部分。
enter image description here

另外，我试过训练complex_model_m_gpu模式。我也有类似BASIC_GPU的错误日志。
但是，当我打印config.log_device_placement时，我看不到gpu：/ 1，gpu：/ 2，gpu：/ 3。只有gpu：/ 0我可以看到。

重要的是BASIC_GPU和complex_model_m_gpu具有相同的运行时间速度。

我想知道在GPU模式下学习是否正常，或者出现问题。

对不起，我的英语，任何人都知道这个问题，然后帮助我。
谢谢。

2017-09-27 kanghyuk

A

回答

0

请参阅TensorFlow的performance guide for optimizing for GPUs了解如何充分利用GPU的技巧。

几件事情要注意

您可以打开设备配置的日志，看看哪些OPS会被分配给哪些设备。这是一种很好的方式来检查操作系统是否实际分配给GPU，并且当您拥有多个GPU时，您正在使用所有GPU。
TensorBoard还应提供有关设备放置的信息，这是另一种检查您是否在使用所有GPU的方法。
使用多个GPU时，您需要确保将操作分配给所有GPU。 TensorFlow guide提供了有关此主题的更多信息。

2017-10-02 17:27:46

相关问题