0

我正在尝试使用谷歌云与mlm模式。在谷歌云上运行GPU的错误符号日志ML

当我训练BASIC_GPU模式时,我有很多错误日志。
但是,它运作良好。
我不确定在GPU模式下学习是否正常。

这是错误日志历史记录。
enter image description here

这是打印config.log_device_placement的一部分。
enter image description here

另外,我试过训练complex_model_m_gpu模式。 我也有类似BASIC_GPU的错误日志。
但是,当我打印config.log_device_placement时,我看不到gpu:/ 1,gpu:/ 2,gpu:/ 3。只有gpu:/ 0我可以看到。

重要的是BASIC_GPU和complex_model_m_gpu具有相同的运行时间速度。

我想知道在GPU模式下学习是否正常,或者出现问题。

对不起,我的英语,任何人都知道这个问题,然后帮助我。
谢谢。

回答

0

请参阅TensorFlow的performance guide for optimizing for GPUs了解如何充分利用GPU的技巧。

几件事情要注意

  • 您可以打开设备配置的日志,看看哪些OPS会被分配给哪些设备。这是一种很好的方式来检查操作系统是否实际分配给GPU,并且当您拥有多个GPU时,您正在使用所有GPU。
  • TensorBoard还应提供有关设备放置的信息,这是另一种检查您是否在使用所有GPU的方法。
  • 使用多个GPU时,您需要确保将操作分配给所有GPU。 TensorFlow guide提供了有关此主题的更多信息。