我跑了火花外壳以下工作:星火UI DAG阶段断开
val d = sc.parallelize(0 until 1000000).map(i => (i%100000, i)).persist
d.join(d.reduceByKey(_ + _)).collect
星火UI显示三个阶段。阶段4和5对应于d
的计算,并且阶段6对应于对collect
动作的计算。由于d
持续存在,我预计只有两个阶段。然而阶段5目前没有连接到任何其他阶段。
所以尝试没有坚持用运行相同的计算,以及DAG貌似相同,只是没有表示RDD的绿点已经坚持。
我期望级11的输出是连接到平台12的输入,但事实并非如此。
看着舞台描述,阶段似乎表明d
正在持续,因为阶段5有输入,但我仍然困惑,为什么阶段5甚至存在。