数据并行训练参数服务器上的GPU是否高效？

在data parallel training上，我猜GPU实例不一定对参数服务器有效，因为参数服务器只保留这些值并且不运行任何计算，如矩阵乘法。数据并行训练参数服务器上的GPU是否高效？

因此，我认为Cloud ML Engine（使用参数服务器CPU和GPU替他人）的示例配置以下具有良好的性价比：

trainingInput: 
    scaleTier: CUSTOM 
    masterType: standard_gpu 
    workerType: standard_gpu 
    parameterServerType: standard_cpu 
    workerCount: 3 
    parameterServerCount: 4

是吗？

来源

2017-04-14 Shuhei Fujiwara

我不是这方面的专家，但我认为GPU有足够的带宽。所以来回传递参数可以通过GPU高效完成，但这意味着浪费GPU。但是，我可能是错的。请参阅[this]（http://www.pdl.cmu.edu/PDL-FTP/CloudComputing/GeePS-cuieurosys16.pdf），其中使用GPU作为参数服务器。 –

你的假设是一个合理的经验法则。也就是说，Parag指出了一篇描述可以在参数服务器中利用GPU的模型的文章，因此参数服务器无法利用GPU的情况并非总是如此。

通常，您可能想要在短时间内尝试两种方法，并查看吞吐量是否有所提高。

如果您对实际分配给参数服务器的操作有任何疑问，您可以log the device placement。如果看起来参数服务器上的ops可以从GPU中受益（并假设它们真的应该在那里），那么您可以继续尝试在参数服务器中使用GPU。

来源

2017-04-15 01:16:15 rhaertel80

数据并行训练参数服务器上的GPU是否高效？

回答

相关问题