2017-07-03 43 views
0

我做了一个简单的程序,输入一个矢量加法器,并想测试执行时间与组大小。 当我将1024到5012的组大小更改为256和128时。执行时间非常相似。为什么?在我看来,当我使用更小的组时,我们应该有更多的组,并且它们可以并行工作在内核中,这可能导致更少的执行时间(例如,如果工作组大小从512更改为256,执行时间应该减少一半? )但在我的gpu经验中,执行时间是否相似?我的看法不对?groupsize vs执行时间?

回答

0

由于每组工作项目的数量对于向量添加不是可见的瓶颈。全球内存性能是瓶颈。如果数据来自主机,那么pci-e性能也是瓶颈。