使用本地驱动器在Azure HDInsight上运行Spark程序

我有一个程序，我想在Azure上运行并进行基准测试。我们已经在亚马逊EC2上测试过这个程序，并且想尽可能地尝试和反映硬件。在EC2上，我们正在访问的数据放在SSD上。我们将数据存储在Azure上的一个Blob中。使用本地驱动器在Azure HDInsight上运行Spark程序

当我们做一个HDInsight集群，我们简单地将数据从团块复制到集群，这将是SSD上（我们所提供的集群与SSD征用？）

是。您将使用来自hadoop命令行的

hadoop distcp <wasb://src-url> <hdfs://dest-url>

，将数据从blob存储移动到本地HDFS。

仅供参考 - 建议的架构是使用Blob存储/ Data Lake而不是HDFS。

参考文献： https://azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-use-blob-storage/

2016-04-04 20:48:47

一样快的SSD使用的斑点。我们目前对最佳做法不感兴趣，而是对我们的EC2数据进行基准测试。 –

我没有标记他们，但我会认为本地磁盘可能会更快。一旦在HDFS中拥有它，应该很容易达到基准标准 –

HDInsight群集上本地HDFS的目标地址为hdfs：// mycluster/ – maxiluk

回答