tensorflow: 1.2.0
gpu: TITAN X (Pascal)
driver: 370.28
我跑distrubuted tensorflow训练图像分类模型,但是没有看到GPU使用(实际上,GPU UTIL MNIST或其他培训工作也0)。GPU UTIL为0时运行tensorflow培训工作,上下文切换是非常高的
有当straced训练过程中的许多民意调查系统调用(FD调查是/ dev/nvidia0):
poll([{fd=8, events=POLLIN}, {fd=12, events=POLLIN}, {fd=13, events=POLLIN}, {fd=14, events=POLLIN}, {fd=15, events=POLLIN}, {fd=17, events=POLLIN}, {fd=18, events=POLLIN}, {fd=19, events=POLLIN}, {fd=20, events=POLLIN}, {fd=21, events=POLLIN}], 10, 100 <unfinished ...>
futex(0x2d1eca4, FUTEX_WAIT_BITSET_PRIVATE|FUTEX_CLOCK_REALTIME, 3340677, {1502763800, 428734182}, ffffffff) = -1 ETIMEDOUT (Connection timed out)
vmstat显示很高的上下文切换,数以百万计CS每秒。
有人见过这个吗?