2013-03-02 51 views
16

我试图评估这两个选项之间的差异。以下是我能想到的一些优点和缺点:EC2上的Hadoop与Elastic Map Reduce

弹性地图减少=>更好的亚马逊支持,无需管理群集,更昂贵(?) EC2 + Hadoop =>更好地控制您的hadoop配置,更便宜(?)

我想知道是否有人可能将EC2 + Hadoop的性能与可见电子病历相比较?大型集群部署的成本是否有显着差异?还有什么其他差异?

+1

价格明智它是添加25%左右的EC2实例的顶部:http://aws.amazon.com/elasticmapreduce/pricing/ – Guy 2013-03-03 16:38:41

回答

6

那么,管理/监控/维护集群本身并不是一项小任务。 使用EMR真的可以让你的机器配置好,立即启动并运行你的自定义引导代码。 除了做所有这些事情外,EMR还提供了很多其他工具/选项/设施。

在这里您不必担心在作业完成后终止集群,您可以在EC2 + Hadoop设置中自己实现一种方法,但EMR可以以一种整洁的方式为您完成。

即使你的工作正在运行,你也有设施resize the cluster大小!

EMR中提供的Pig和Hive也包含可以更容易地使用S3中的文件的补丁。

即使here在这个答案中,您可能会发现EMR已占上风。

6

我在我的工作中使用了两种方法(EMR和EC2)。

Amar提到的EMR的优点或多或少都是真实的:所以如果你想要简单,它可能是要走的路。

但也有其他方面的考虑:

  • EMR的版本是远远落后于Apache的头。它是约0.20.205而头处于2.X,它基本上是3个版本向上(1.0,1.1,2.0 ..)

的hadoop @的domU-12-31-39-07-B9-97 :〜$ ll hadoop * .jar lrwxrwxrwx 1 hadoop hadoop 73 2月5日12:00 hadoop-examples-0.20.205.jar - > /home/hadoop/.versions/0.20.205/share/hadoop/hadoop-examples- 0.20.205.jar lrwxrwxrwx 1 hadoop hadoop 69 Feb 5 12:00 hadoop-test-0.20.205.jar - > /home/hadoop/.versions/0.20.205/share/hadoop/hadoop-test-0.20.205 .jar lrwxrwxrwx 1 hadoop hadoop 69 Feb 5 12:00 hadoop-core-0.20.205.jar - > /home/hadoop/.versions/0.20.205/share/hadoop/hadoop-core-0.20.205.jar lrwxrwxrwx 1 hadoop hadoop 70 2月5日12:00 hadoop-tools-0.20.205.jar - > /home/hadoop/.versions/0.20.205/share/hadoop/ hadoop-tools-0.20.205.jar lrwxrwxrwx 1 hadoop hadoop 68 Feb 5 12:00 hadoop-ant-0.20.205.jar - > /home/hadoop/.versions/0.20.205/share/hadoop/hadoop-ant -0.20.205.jar

  • 作为直接结果,我不得不重新编码/调整自己的Map/Reduce程序由于旧版本的contrib缺少对模块EMR

    运行
  • 你不尽可能多地使用非Map/Reduce算法,就像使用M/R的更新版本一样。

  • 灵活地混合搭配hadoop生态系统版本。

+0

亚马逊弹性MapReduce支持的Hadoop 0.20.205和Hadoop 1.0.3与定制补丁(http://aws.amazon.com/elasticmapreduce/faqs/#dev-12) 而不是使用Apache hadoop的其中一个版本,您可以使用MapR,而EMR也支持这一点。 (http://aws.amazon.com/elasticmapreduce/mapr/) – Amar 2013-03-03 21:40:16

+0

我相信这个答案已过时,并且考虑事项不再是真实的...... – chomp 2016-05-01 14:33:39