distributed-computing

    2热度

    1回答

    我很想了解Spark如何实现容错。在他们的paper中,他们描述了他们如何为像地图这样相当简单的“狭义依赖性”做到这一点。但是,如果一个节点在像排序操作这样的广泛依赖之后崩溃,他们不会说明他们做了什么。我能找到的唯一的事情是这样的: 相比之下,具有广泛的依赖关系的谱系图,一个失败的节点可能会导致某些分区的损失从RDD的所有祖先,需要一个完整的重执行。 这对于理解发生的事情并不足够。 排序后,没有办

    5热度

    1回答

    我已经在群集上启动并运行了dask,但似乎无法访问诊断网页。着陆页是可见的,见下图: 但是所有的链接只是挂永不加载页面。 调度开始细跟这样的输出: [[email protected] ~]$ dask-scheduler --scheduler-file dask-scheduler.json distributed.scheduler - INFO - -------------------

    0热度

    1回答

    我刚刚完成了一个数据库课程,深入到数据库的内部。我试图将我们在课程中学到的所有术语连接起来,但我感觉我缺少一些片段。这里是我所知道的: 数据库:数据结构的“逻辑”表示 - 可互换地用来指物理数据,关系案例中的“表格”数据和DBMS。 数据库管理系统(DBMS):为管理员/用户提供开发加速访问等机制的工具。系统理解数据的统计信息,并可执行查询优化以开发良好的执行路径。例如:PostgreSql,My

    1热度

    3回答

    你好我经常需要在我的代码中使用groupByKey,但我知道这是一个非常繁重的操作。由于我正在努力提高性能,我想知道我的方法是否有效地移除所有groupByKey调用。 我被用来创建从另一个RDD的RDD和创建对类型(INT,INT) rdd1 = [(1, 2), (1, 3), (2 , 3), (2, 4), (3, 5)] ,因为我需要获得这样的事情: [(1, [2, 3]), (2 ,

    1热度

    2回答

    我想让我的Spark程序执行速度有时间,但由于懒惰,这是相当困难的。让我们考虑到这里本(意义)代码: var graph = GraphLoader.edgeListFile(context, args(0)) val graph_degs = graph.outerJoinVertices(graph.degrees).triplets.cache /* I'd need to start

    0热度

    2回答

    我正在阅读关于八卦式失败检测的内容。 在我正在读它的Notes的指出:a single heartbeat takes O(log(N)) time to propagate但这一说法没有解释 任何想法,这是为什么?

    1热度

    1回答

    我目前在一家公司的大数据团队工作,我需要从Dynamo数据库导出数据到亚马逊s3,当导出数据和使用火花查询提取的半结构化JSON时,需要40分钟才能进行即席查询与全表扫描。我阅读了关于apache操作及其对非结构化数据进行秒查询的能力,是否应该继续使用apache操作或对json进行扁平化并将其存储为配置单元ORC表(一万个列)?换句话说,我需要进行查询而无需进行全表扫描。

    1热度

    1回答

    我是新来的并行计算,我无法理解PBS系统的使用。我已成功安装SLURM并设置处理节点。但无法理解我如何在多个节点之间分配任务。 有很多简单的例子,但他们只是运行简单的“Hello World”程序,这就是全部。 考虑下面的例子,我在网上找到了。 #!/bin/bash #SBATCH -N 4 #SBATCH -c 1 #SBATCH --time=0-00:15:00 # 30 minu

    0热度

    1回答

    您好,我正在比较两种不同集群上Spark算法的性能。一种具有更高的计算能力,另一种具有更高的内存效率。 群集1具有AWS实例5个节点c4.xlarge与4个vCPU和主存储器的 7.5GiB。 集群2有5个AWS实例节点r4.xlarge具有4个vCPU和30.5吉比特的主存储器。 我的代码被分成13个阶段,但只有最后5个阶段实际上是我需要照顾的性能。下面这五个: 上面的图片显示了运行我的群2(记

    2热度

    2回答

    为什么Paxos需要两个阶段(prepare/promise + accept/accepted)而不是一个阶段?也就是说,只使用prepare/promise部分,如果提议者已经从大多数接受者那里收到回复,那么该值就是选择的。 问题是什么,它是否会破坏安全性或活力?