2012-07-06 59 views
1

我目前正在MR-MPI(MapReduce on MPI)上实现机器学习算法。我还试图了解其他MapReduce框架,尤其是Hadoop,因此以下是我的基本问题(我是MapReduce框架的新手,如果我的问题没有意义,我会提供aplogize)。数据移动HDFS Vs并行文件系统与MPI

问题:由于MapReduce可以在诸如并行文件系统(GPFS),HDFS,MPI,e.t.c等很多东西之上实现。在map步骤之后,有一个collat​​e操作,然后是一个reduce操作。对于整理操作,我们需要在节点间发生一些数据移动。在这方面,我想知道HDFS Vs GPFS Vs MPI中数据移动机制(节点之间)有什么不同。

我很感激你是否给我提供了一些很好的解释,并且可以给我一些很好的参考资料,所以我可以进一步了解细节。

谢谢。

回答

0

MapReduce作为一个范例可以在许多存储系统上实现。事实上,Hadoop具有所谓的DFS(分布式文件系统)抽象功能,可以集成不同的存储系统并在其上运行MapReduce。例如,有Amazon S3,本地文件系统,打开Stack Swift和其他集成。
与此同时,HDFS集成有一个特殊属性 - 它向MR引擎(JobTracker,更具体)报告数据所在的位置,并且它使映射的智能调度能够以每个映射器要处理的数据的方式进行搭配Mapper。 因此,在映射阶段,当MR在HDFS上运行时,数据不会通过网络传输。要更一般地说明Hadoop MR的想法是将代码移动到数据而不是相反,并且在评估任何可扩展的MR实现时它应该是重要的标准 - 该系统是否关心映射器处理本地数据?

+0

您能否重新回答我的问题。我做了一个小小的编辑。 – 2012-07-06 07:19:12

0

该操作系统混合了一些东西 - 消息传递和文件系统,所以有多个连接。

Hadoop/MAPI是一个WIP,你可以找到更多的细节here

Hadoop/GPFS仍然是open

Hadoop/HDFS从Apache Hadoop开箱即用。对于使用HTTP映射器和reducer之间的数据传输,不知道为什么。