distributed

    2热度

    1回答

    下面的简单脚本启动时显示其标题中显示的参数。它的行为不同,但通常其中一个工作人员挂起并打印这些“CreateSession仍在等待其他任务”消息。为什么新的MonitoredTrainingSession需要其他人?为什么其他人不等它开始呢? # #!/bin/bash # python train.py --job master --task 0 & # python train.py --

    1热度

    2回答

    如果我有将数据写入存储的系统。 在群集设置中,如果数据是同步复制的,也就是说,当我收到请求更改跨所有节点更新的数据,然后返回响应时。 在这种情况下是否可以动态添加节点? 也就是说,有2个节点,并且在该群集上执行一些事务。我可以添加集群仍在运行的第三个节点吗? 如果我添加一个这样的新节点,是不是破坏了集群的强一致性?

    1热度

    1回答

    之前,我开始与我的问题,让我简要介绍一下该架构,我们需要使用: 我们将有一个中央应用实例。 这个应用程序实例部署与业务管理Web应用 - 它是用来改变“内部”数据(我会谈谈这一刻) 这个应用程序实例实际上是服务器 集群 我们将有n个(n> 0 & &ñ< = 3000)本地应用程序实例 - 1对每个 “位置” 种 这种情况下,作为数据处理器用于其位置 这种情况下不使用全套中央数据 - 仅子集限于所

    1热度

    1回答

    我用tensorflow分布,专卖店模式与代码: hooks=[tf.train.StopAtStepHook(last_step=1000000)] with tf.train.MonitoredTrainingSession(master=server.target, is_chief=is_chief, checkpoint_

    0热度

    1回答

    Apache Spark具有Resilient Distributed Dataset的概念。 的RDD是: 它是对象的不可变的分布式集合。 RDD中的每个数据集都被划分为逻辑分区,这些分区可以在集群的不同节点上进行计算。 形式上,RDD是一个只读的分区记录集合。可以通过对稳定存储或其他RDD上的数据进行确定性操作来创建RDD。 RDD是可以并行操作的容错组件的容错集合。 现在Clojure有im

    0热度

    1回答

    我想进行分布式测试。当我在主计算机上测试目标站点时,正确返回响应数据,但是当我从远程(从站计算机)测试目标站点时,响应数据为空,并开始在主机“slavemachine ip“,在主机”slavemachine的ip“上完成测试,出现slave机器的jmeter-server。我在这个链接中仔细地做了一些步骤。 https://jmeter.apache.org/usermanual/jmeter_

    0热度

    1回答

    我在Kubernetes和AWS和I上测试自动缩放Dask分布式实现时创建了一个演示问题我不确定我是否正确解决了该问题。 我的场景是一个字符串(表示密码)的md5散列找到原始字符串。我遇到了三个主要问题。 A)参数空间很大,试图用2.8211099e + 12个成员创建一个dask包导致了内存问题(因此您将在下面的示例代码中看到'explode'函数)。 B)在早期发现时清理出口。我认为使用tak

    0热度

    1回答

    DRBD采用什么协议来保证它能够保持2个磁盘彼此同步? 它使用两阶段提交(或类似于2PC的变体)吗? DRBD是否有一个异步/脱机协调器不断检查磁盘是否有偏差?

    1热度

    1回答

    我正在用Dask.delayed取得良好进展。作为一个团队,我们决定花更多时间使用Dask来处理图。 我有一个关于分配的问题。我在集群中看到以下行为。我开始每个8个节点上有8个工作人员,每个工作人员有4个线程,然后说我然后client.compute 8个图形创建模拟数据以供后续处理。我想让8个数据集每个节点生成一个。然而,似乎发生的是,并非不合理的是,这八个函数在前两个节点上运行。随后的计算在第

    0热度

    1回答

    假设我有10台带有2个GPU的机器,我想运行一个分布式TensorFlow集群。我应该分配多少个参数服务器VS主服务器?