0
我有一个程序,我想在Azure上运行并进行基准测试。我们已经在亚马逊EC2上测试过这个程序,并且想尽可能地尝试和反映硬件。在EC2上,我们正在访问的数据放在SSD上。我们将数据存储在Azure上的一个Blob中。使用本地驱动器在Azure HDInsight上运行Spark程序
当我们做一个HDInsight集群,我们简单地将数据从团块复制到集群,这将是SSD上(我们所提供的集群与SSD征用?)
我有一个程序,我想在Azure上运行并进行基准测试。我们已经在亚马逊EC2上测试过这个程序,并且想尽可能地尝试和反映硬件。在EC2上,我们正在访问的数据放在SSD上。我们将数据存储在Azure上的一个Blob中。使用本地驱动器在Azure HDInsight上运行Spark程序
当我们做一个HDInsight集群,我们简单地将数据从团块复制到集群,这将是SSD上(我们所提供的集群与SSD征用?)
是。您将使用来自hadoop命令行的
hadoop distcp <wasb://src-url> <hdfs://dest-url>
,将数据从blob存储移动到本地HDFS。
仅供参考 - 建议的架构是使用Blob存储/ Data Lake而不是HDFS。
参考文献: https://azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-use-blob-storage/
一样快的SSD使用的斑点。我们目前对最佳做法不感兴趣,而是对我们的EC2数据进行基准测试。 –
我没有标记他们,但我会认为本地磁盘可能会更快。一旦在HDFS中拥有它,应该很容易达到基准标准 –
HDInsight群集上本地HDFS的目标地址为hdfs:// mycluster/ – maxiluk