Tensorflow模型并行性错误

我实际上想在tensorflow中自动实现模型并行性。Tensorflow模型并行性错误

我稍微改正了版本1.3中放置代码（simple_placer.cc）中张量流的代码。然而，在MNIST的情况下，安置工作是有效的，但是它在开始时有错误。

InvalidArgumentError (see above for traceback): Trying to access resource located in device /job:worker/replica:0/task:1/cpu:0 from device /job:worker/replica:0/task:0/cpu:0

我想得到关于这个错误的一些建议，比如当错误出现或者什么情况会导致这个错误。

谢谢。

来源

2017-12-03 jwl1993

当某些操作尝试读取其中一个输入，但该输入恰好驻留在另一个设备上时，通常会发生此错误。通常，当张量流将操作放置在不同设备上时，它将send/recv节点插入到执行图中以交换这些设备之间的张量。你的改变可能会破坏一些逻辑。

来源

2017-12-13 05:40:33 iga

感谢您回答我的问题。可能存在输入节点在机器1（M1）中，并且数据在M1，M2等中分离的情况。然后，当输入节点访问M1中的数据时，没有错误，但是当输入节点访问M2或其他机器中的数据，我提到的错误将会发生，对吗？ – jwl1993

是的，你是对的。 – iga

那么有没有办法在每个有输入数据的机器上添加对应于输入节点的recv/send节点？ – jwl1993

Tensorflow模型并行性错误

回答

相关问题