2014-09-03 119 views
0

在特斯拉K20模型中,峰值单精度浮点性能约为3.52 TFlops,但双精度为1.17 TFlops,因此比率为3.特斯拉K20X有3.95和1.31,特斯拉K40有4.29和1.43 TFlops ,这个比例似乎重复。我的问题是,如果有一个原因的比例是3而不是2,这对我来说似乎是合乎逻辑的,因为单精度和双精度之间的差异。我正在学习GPUS和GPGPUS,所以我不太了解它。NVIDIA Tesla中单精度和双精度之间是否存在关系?

在这个pdf的第二页有一个规格表。 NVIDIA-Tesla-Kepler-Family-Datasheet.pdf

回答

0

您列出的型号全部基于开普勒架构,其峰值双精度率等于峰值单精度率的1/3。这是NVIDIA制造这块硬件的方式。为了比较,作为前一代硬件的费米,峰值双精度和单精度率之间的比值为1/2。

你可以参考NVIDIA文档的指令吞吐量,按指令类型和硬件生成:

http://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#maximize-instruction-throughput

你会发现,消费级产品(的GeForce GTX)通常具有低得多的双TO-单精度速率 - 1/8,1/12,1/24,甚至1/32,具体取决于硬件版本。