2010-04-18 116 views
2

说明使用迭代MapReduce的并行计算可以证明主要是当训练数据大小对于同一逻辑的非并行计算太大时是否正确?Hadoop:迭代MapReduce性能

我知道启动MapReduce作业会有开销。 当需要大量迭代时,这对于总体执行时间可能很关键。

我可以想象,只要内存在许多情况下允许存储数据集,那么顺序计算比使用迭代MapReduce的并行计算更快。

回答

1

没有并行处理系统,如果一台机器在大多数情况下都能完成这项工作,这将非常有意义。与大多数并行任务相关的复杂性非常重要,需要充分利用它。

即使很明显如果在可接受的时间内没有并行处理任务就无法解决,那么并行执行框架会有不同的风格:从更低层次的科学工具,如PVM or MPI到高级的专业化(如map/reduce)框架(如Hadoop)。

您应该考虑的参数之一是开始时间和可伸缩性(系统缩放的线性程度有多接近)。如果您需要快速找到答案,Hadoop将不是一个好选择,但如果您可以将您的过程纳入地图缩小框架中,Hadoop可能是一个不错的选择。

0

您可能会参考项目HaLoop(http://code.google.com/p/haloop),其中正好解决了这个问题。

+3

@anuj在各种编辑中,您似乎没有理由大胆进行编辑。链接是好的,但只要给项目的正确大写拼写,你很好去。 – Bart 2012-12-13 14:38:27

+0

再次为此。 – 2012-12-13 14:40:45

+0

@anujarora感谢您的编辑 – Khalefa 2012-12-19 14:42:41