2017-12-03 91 views
0

我实际上想在tensorflow中自动实现模型并行性。Tensorflow模型并行性错误

我稍微改正了版本1.3中放置代码(simple_placer.cc)中张量流的代码。然而,在MNIST的情况下,安置工作是有效的,但是它在开始时有错误。

InvalidArgumentError (see above for traceback): Trying to access resource located in device /job:worker/replica:0/task:1/cpu:0 from device /job:worker/replica:0/task:0/cpu:0 

我想得到关于这个错误的一些建议,比如当错误出现或者什么情况会导致这个错误。

谢谢。

回答

0

当某些操作尝试读取其中一个输入,但该输入恰好驻留在另一个设备上时,通常会发生此错误。通常,当张量流将操作放置在不同设备上时,它将send/recv节点插入到执行图中以交换这些设备之间的张量。你的改变可能会破坏一些逻辑。

+0

感谢您回答我的问题。可能存在输入节点在机器1(M1)中,并且数据在M1,M2等中分离的情况。然后,当输入节点访问M1中的数据时,没有错误,但是当输入节点访问M2或其他机器中的数据,我提到的错误将会发生,对吗? – jwl1993

+0

是的,你是对的。 – iga

+0

那么有没有办法在每个有输入数据的机器上添加对应于输入节点的recv/send节点? – jwl1993