perf
是一个可以报告硬件和软件事件的性能分析工具。我试图用MPI应用程序运行它,以了解应用程序在每个内核中花费多少时间在数据传输和计算操作上。使用MPI应用程序运行perf
通常情况下,我会跑我的应用程序与
mpirun -np $NUMBER_OF_CORES app_name
它会催生几个核心或可能的几个节点。是否可以在顶部添加perf
?我试过
perf stat mpirun -np $NUMBER_OF_CORES app_name
但是,这个输出看起来像某种聚合的mpirun。有没有办法从每个核心收集perf类型的数据?