我正在努力在celebA上培训DCGAN。培训过程似乎进行得非常缓慢,我想弄清楚是什么造成了瓶颈。当我使用规模级STANDARD_1,BASIC_GPU或仅在我的6年历史的4核CPU笔记本电脑上本地运行时,训练一个时期需要的时间似乎非常相似。在这三种配置中,每个训练步骤大约需要25秒,但我注意到每隔一段时间训练一步需要几分钟的时间。搞清Cloud ML培训中的瓶颈
使用BASIC_GPU时,CPU利用率小于.1。我使用BASIC层进行了一项实验,并将主盘托空间设置为.4,每步大约需要40秒。当使用标准_1,我得到以下CPU利用率:
- 主:0.28
- 工人:0.21
- 参数服务器(PS):0.48
基本运行时使用单个工作人员,CPU利用率不应该接近100%?
以这样的速度,它将花费22个小时来培训一个celebA的时代,图像缩小到64x64。从回购看其他人的培训日志,看起来这比其他人使用GPU进行培训要高得多。
你能提供一个指向你提到的其他培训日志的指针吗? – rhaertel80
这个人似乎平均每个批次少于2秒:https://github.com/carpedm20/DCGAN-tensorflow/issues/34 – psoulos