我在Amazon EMR上运行其公有DNS的Spark,例如23.21.40.15
。Apache Spark通过跨群集访问hdfs中的数据
现在我在这个群集上执行我的Spark Jar &我想将我的Spark Job的输出写入其公有DNS为29.45.56.72
的其他Amazon EMR HDFS。
我能够访问我自己的群集HDFS,即23.21.40.15
,但我无法写入群集29.45.56.72
。
- 我需要做什么才能让我的火花作业可以访问跨群集 HDFS?
- 如果可能的话,任何人都可以共享此示例代码?
您可以在第一个群集上写出来,然后使用distCp将输出移动到第二个群集? –
这是一种间接的方式,我想......但如果我的目的地是第二个集群?我的意思是如果我想将它写入第一个集群的第二个集群的hdfs? – Akki