2013-02-26 52 views

回答

3

Nsight Visual Studio Edition 3.0 CUDA Profiler引入了源相关实验。本概要CUDA活动支持以下源水平的实验:

  • 指令计数 - 收集所执行的指令,执行的线程的指令,活动线程直方图,预测螺纹直方图在内核中的每个用户指令。系统调用信息(printf)未被收集。

  • 发散分支 - 收集分支采集,未采用分支和流量控制指令的分歧计数。

  • 内存事务 - 收集交易数量,交易的理想柜台,并要求字节为全球,本地和共享内存的指令。

该信息按照SASS指令收集。如果使用-lineinfo(--generate-line-info)编译内核,则可以将信息汇总到PTX和高级别源代码。由于这些数据是从SASS卷起来的,因此一些统计数据可能对高层来源不直观。例如,分支统计信息可能会在预计100%采取时显示为100%。如果您查看SASS代码,您可能会看到编译器颠倒了条件。

请不要在优化的版本上编译器有时无法维护线表信息。

enter image description here

此时的硬件性能计数器和时间仅可在内核级别。

设备代码时序可以使用clock()和clock64()来完成,如注释中所述。这是一项非常先进的技术,它需要能够理解SASS并解释关于SM warp调度程序的结果。

+0

谢谢。它看起来很难但很有趣。你知道Nsight 3.0何时会发布吗? – Seltymar 2013-02-28 08:57:54