0

data parallel training上,我猜GPU实例不一定对参数服务器有效,因为参数服务器只保留这些值并且不运行任何计算,如矩阵乘法。数据并行训练参数服务器上的GPU是否高效?

因此,我认为Cloud ML Engine(使用参数服务器CPU和GPU替他人)的示例配置以下具有良好的性价比:

trainingInput: 
    scaleTier: CUSTOM 
    masterType: standard_gpu 
    workerType: standard_gpu 
    parameterServerType: standard_cpu 
    workerCount: 3 
    parameterServerCount: 4 

是吗?

+0

我不是这方面的专家,但我认为GPU有足够的带宽。所以来回传递参数可以通过GPU高效完成,但这意味着浪费GPU。但是,我可能是错的。请参阅[this](http://www.pdl.cmu.edu/PDL-FTP/CloudComputing/GeePS-cuieurosys16.pdf),其中使用GPU作为参数服务器。 –

回答

0

你的假设是一个合理的经验法则。也就是说,Parag指出了一篇描述可以在参数服务器中利用GPU的模型的文章,因此参数服务器无法利用GPU的情况并非总是如此。

通常,您可能想要在短时间内尝试两种方法,并查看吞吐量是否有所提高。

如果您对实际分配给参数服务器的操作有任何疑问,您可以log the device placement。如果看起来参数服务器上的ops可以从GPU中受益(并假设它们真的应该在那里),那么您可以继续尝试在参数服务器中使用GPU。

相关问题