我试图评估这两个选项之间的差异。以下是我能想到的一些优点和缺点:EC2上的Hadoop与Elastic Map Reduce
弹性地图减少=>更好的亚马逊支持,无需管理群集,更昂贵(?) EC2 + Hadoop =>更好地控制您的hadoop配置,更便宜(?)
我想知道是否有人可能将EC2 + Hadoop的性能与可见电子病历相比较?大型集群部署的成本是否有显着差异?还有什么其他差异?
我试图评估这两个选项之间的差异。以下是我能想到的一些优点和缺点:EC2上的Hadoop与Elastic Map Reduce
弹性地图减少=>更好的亚马逊支持,无需管理群集,更昂贵(?) EC2 + Hadoop =>更好地控制您的hadoop配置,更便宜(?)
我想知道是否有人可能将EC2 + Hadoop的性能与可见电子病历相比较?大型集群部署的成本是否有显着差异?还有什么其他差异?
那么,管理/监控/维护集群本身并不是一项小任务。 使用EMR真的可以让你的机器配置好,立即启动并运行你的自定义引导代码。 除了做所有这些事情外,EMR还提供了很多其他工具/选项/设施。
在这里您不必担心在作业完成后终止集群,您可以在EC2 + Hadoop设置中自己实现一种方法,但EMR可以以一种整洁的方式为您完成。
即使你的工作正在运行,你也有设施resize the cluster大小!
EMR中提供的Pig和Hive也包含可以更容易地使用S3中的文件的补丁。
即使here在这个答案中,您可能会发现EMR已占上风。
我在我的工作中使用了两种方法(EMR和EC2)。
Amar提到的EMR的优点或多或少都是真实的:所以如果你想要简单,它可能是要走的路。
但也有其他方面的考虑:
的hadoop @的domU-12-31-39-07-B9-97 :〜$ ll hadoop * .jar lrwxrwxrwx 1 hadoop hadoop 73 2月5日12:00 hadoop-examples-0.20.205.jar - > /home/hadoop/.versions/0.20.205/share/hadoop/hadoop-examples- 0.20.205.jar lrwxrwxrwx 1 hadoop hadoop 69 Feb 5 12:00 hadoop-test-0.20.205.jar - > /home/hadoop/.versions/0.20.205/share/hadoop/hadoop-test-0.20.205 .jar lrwxrwxrwx 1 hadoop hadoop 69 Feb 5 12:00 hadoop-core-0.20.205.jar - > /home/hadoop/.versions/0.20.205/share/hadoop/hadoop-core-0.20.205.jar lrwxrwxrwx 1 hadoop hadoop 70 2月5日12:00 hadoop-tools-0.20.205.jar - > /home/hadoop/.versions/0.20.205/share/hadoop/ hadoop-tools-0.20.205.jar lrwxrwxrwx 1 hadoop hadoop 68 Feb 5 12:00 hadoop-ant-0.20.205.jar - > /home/hadoop/.versions/0.20.205/share/hadoop/hadoop-ant -0.20.205.jar
作为直接结果,我不得不重新编码/调整自己的Map/Reduce程序由于旧版本的contrib缺少对模块EMR
运行你不尽可能多地使用非Map/Reduce算法,就像使用M/R的更新版本一样。
灵活地混合搭配hadoop生态系统版本。
价格明智它是添加25%左右的EC2实例的顶部:http://aws.amazon.com/elasticmapreduce/pricing/ – Guy 2013-03-03 16:38:41