2016-04-03 76 views
0

我有一个程序,我想在Azure上运行并进行基准测试。我们已经在亚马逊EC2上测试过这个程序,并且想尽可能地尝试和反映硬件。在EC2上,我们正在访问的数据放在SSD上。我们将数据存储在Azure上的一个Blob中。使用本地驱动器在Azure HDInsight上运行Spark程序

当我们做一个HDInsight集群,我们简单地将数据从团块复制到集群,这将是SSD上(我们所提供的集群与SSD征用?)

回答

0

是。您将使用来自hadoop命令行的

hadoop distcp <wasb://src-url> <hdfs://dest-url> 

,将数据从blob存储移动到本地HDFS。

仅供参考 - 建议的架构是使用Blob存储/ Data Lake而不是HDFS。

参考文献: https://azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-use-blob-storage/

+0

一样快的SSD使用的斑点。我们目前对最佳做法不感兴趣,而是对我们的EC2数据进行基准测试。 –

+0

我没有标记他们,但我会认为本地磁盘可能会更快。一旦在HDFS中拥有它,应该很容易达到基准标准 –

+0

HDInsight群集上本地HDFS的目标地址为hdfs:// mycluster/ – maxiluk

相关问题