distributed-computing

    2热度

    1回答

    我在互联网上发现了两个定义: 连续一致性 - 任何执行的结果与所有处理器的操作以某种顺序执行的结果相同,并且每个处理器的操作按照其程序指定的顺序出现在这个序列中。 最终一致性 - 如果没有对给定数据项进行新更新,则最终对该项的所有访问都将返回上次更新的值。 这些定义对我来说很清楚。但是,当最终一致性不连续时,我不会得到。 示例: mem中的初始值为0.水平轴是时间。 P1: write 1

    2热度

    1回答

    下面的简单脚本启动时显示其标题中显示的参数。它的行为不同,但通常其中一个工作人员挂起并打印这些“CreateSession仍在等待其他任务”消息。为什么新的MonitoredTrainingSession需要其他人?为什么其他人不等它开始呢? # #!/bin/bash # python train.py --job master --task 0 & # python train.py --

    0热度

    1回答

    我已阅读了redis standalone如何提供乐观锁定。我在redis网站上也遇到了Redlock算法,可用于分布式锁定。 现在我不明白为什么我们需要在Redis中使用分布式锁定(启用集群模式)。 在启用分布式模式下,我们最多可以有15个分片,每个分片具有非重叠记录。由于没有共享数据,分布式锁需要什么? 每个共享都不会乐观锁定吗?其中一个原因可能是多键操作,但除此之外我无法想到任何事情。 我的

    2热度

    1回答

    我在Apache Spark上运行“连接”操作,看到没有弱的可伸缩性。如果有人能解释这一点,将不胜感激。我创建了两个数据框(“a”,“b”)和(“a”,“c”),并通过第一列连接数据框。我为“一对一”连接生成数据帧值。另外,我使用相同的分区程序来避免混洗。 数据框中的行数 - 1024 * 1024 * 16 * cores_total(cores_total - 启动程序的核心总数)。 列“a”

    0热度

    1回答

    我正在阅读一致性模型,但似乎无法理解分布式系统中因果关系的概念。我搜索了很多,但没有找到这个概念的一个很好的解释。人们通常会解释为什么因果关系是好事等等,但基本概念是什么。

    1热度

    2回答

    我正尝试从群集的“/ user”目录中的所有HDFS文件中获取第一行。 目前我们有一个Hive表,其中包含有关这些文件的信息,例如拥有者,完整路径(位置),所有者的公司ID,文件创建日期,文件读/写权限等。我想添加一个新列到这个包含文件完整第一行的Hive表。 这就是为什么我正在寻找一种方法来提取目录中的所有HDFS文件的第一行(在我的情况下,“/ user”目录)。我可以用Spark来实现这个吗

    0热度

    2回答

    我正在尝试使用SyncReplicaOptimizer和MonitoredTraining Session在分布式张量流中编写同步训练码。 我面临的问题是,经过一些步骤后,主人会暂停培训,并且没有工人开始培训。有没有人遇到过这个? 这是我写的代码。数据从张量流记录中读取。我遵循tensorflow网站中描述的确切方式。 def build(self): self.modelObj = M

    0热度

    1回答

    我不从Google File Systems Paper 一个小文件由少数块,也许只是一个明白这一点。如果许多客户端 正在访问相同的文件,则存储这些块的大块服务器可能会成为热点。 小文件有什么区别?许多客户访问的大文件是否可能导致问题? 我想过/阅读以下内容: - 我认为(纠正我,如果我错了)是大文件的数据块存储在不同的大块服务器从而分散负载。在这种情况下,1000个客户端访问每个块服务器的文件的

    1热度

    1回答

    的苗条model_deploy有DeploymentConfig参数,如num_replicas,num_ps_tasks,worker_job_name,ps_job_name,这些术语可能出现在分布式版本,但我不认为model_deploy是分布式的版本,因为它不声明tf.train.ClusterSpec。 所以我无法理解model_deploy,它要模拟独立计算机上的分布式版本?而在独立电

    0热度

    2回答

    我需要对RDD进行排序。排序需要在我的记录的多个领域,因此我需要一个自定义比较器。 我看到sortBy,因为它只接受一个键。我碰巧http://codingjunkie.net/spark-secondary-sort/,因此使用repartitionAndSortWithinPartitions实现相同。 为什么sortBy接受自定义比较器并进行排序?为什么我必须重新分配才能使用自定义比较器?