distributed-computing

2热度

1回答

我在互联网上发现了两个定义：连续一致性 - 任何执行的结果与所有处理器的操作以某种顺序执行的结果相同，并且每个处理器的操作按照其程序指定的顺序出现在这个序列中。最终一致性 - 如果没有对给定数据项进行新更新，则最终对该项的所有访问都将返回上次更新的值。这些定义对我来说很清楚。但是，当最终一致性不连续时，我不会得到。示例： mem中的初始值为0.水平轴是时间。 P1: write 1

2热度

1回答

分布式Tensorflow：CreateSession仍在等待

下面的简单脚本启动时显示其标题中显示的参数。它的行为不同，但通常其中一个工作人员挂起并打印这些“CreateSession仍在等待其他任务”消息。为什么新的MonitoredTrainingSession需要其他人？为什么其他人不等它开始呢？ # #!/bin/bash # python train.py --job master --task 0 & # python train.py --

0热度

1回答

启用群集模式的Redis锁

我已阅读了redis standalone如何提供乐观锁定。我在redis网站上也遇到了Redlock算法，可用于分布式锁定。现在我不明白为什么我们需要在Redis中使用分布式锁定（启用集群模式）。在启用分布式模式下，我们最多可以有15个分片，每个分片具有非重叠记录。由于没有共享数据，分布式锁需要什么？每个共享都不会乐观锁定吗？其中一个原因可能是多键操作，但除此之外我无法想到任何事情。我的

2热度

1回答

Apache Spark连接操作的弱扩展性差

我在Apache Spark上运行“连接”操作，看到没有弱的可伸缩性。如果有人能解释这一点，将不胜感激。我创建了两个数据框（“a”，“b”）和（“a”，“c”），并通过第一列连接数据框。我为“一对一”连接生成数据帧值。另外，我使用相同的分区程序来避免混洗。数据框中的行数 - 1024 * 1024 * 16 * cores_total（cores_total - 启动程序的核心总数）。列“a”

0热度

1回答

有人可以解释分布式计算中因果关系的概念吗？

我正在阅读一致性模型，但似乎无法理解分布式系统中因果关系的概念。我搜索了很多，但没有找到这个概念的一个很好的解释。人们通常会解释为什么因果关系是好事等等，但基本概念是什么。

1热度

2回答

有没有办法从目录中的所有HDFS文件中获取第一行？

我正尝试从群集的“/ user”目录中的所有HDFS文件中获取第一行。目前我们有一个Hive表，其中包含有关这些文件的信息，例如拥有者，完整路径（位置），所有者的公司ID，文件创建日期，文件读/写权限等。我想添加一个新列到这个包含文件完整第一行的Hive表。这就是为什么我正在寻找一种方法来提取目录中的所有HDFS文件的第一行（在我的情况下，“/ user”目录）。我可以用Spark来实现这个吗

0热度

2回答

分布式Tensorflow，Master在培训时卡住了，工作人员没有开始培训，而使用SyncReplicasOptimizer和MonitoredTrainingSession？

我正在尝试使用SyncReplicaOptimizer和MonitoredTraining Session在分布式张量流中编写同步训练码。我面临的问题是，经过一些步骤后，主人会暂停培训，并且没有工人开始培训。有没有人遇到过这个？这是我写的代码。数据从张量流记录中读取。我遵循tensorflow网站中描述的确切方式。 def build(self): self.modelObj = M

0热度

1回答

为什么小文件会在Google文件系统中创建热点？

我不从Google File Systems Paper 一个小文件由少数块，也许只是一个明白这一点。如果许多客户端正在访问相同的文件，则存储这些块的大块服务器可能会成为热点。小文件有什么区别？许多客户访问的大文件是否可能导致问题？我想过/阅读以下内容： - 我认为（纠正我，如果我错了）是大文件的数据块存储在不同的大块服务器从而分散负载。在这种情况下，1000个客户端访问每个块服务器的文件的

1热度

1回答

tensorflow的苗条有散发版吗？

的苗条model_deploy有DeploymentConfig参数，如num_replicas，num_ps_tasks，worker_job_name，ps_job_name，这些术语可能出现在分布式版本，但我不认为model_deploy是分布式的版本，因为它不声明tf.train.ClusterSpec。所以我无法理解model_deploy，它要模拟独立计算机上的分布式版本？而在独立电

0热度

2回答

使用spark进行排序

我需要对RDD进行排序。排序需要在我的记录的多个领域，因此我需要一个自定义比较器。我看到sortBy，因为它只接受一个键。我碰巧http://codingjunkie.net/spark-secondary-sort/，因此使用repartitionAndSortWithinPartitions实现相同。为什么sortBy接受自定义比较器并进行排序？为什么我必须重新分配才能使用自定义比较器？