有人可以给初学者提供一个关于Hadoop如何工作的高级简单解释吗？

Hadoop由许多组件组成，这些组件是Apache Hadoop项目的每个子项目。其中两个主要的是Hadoop Distributed File System (HDFS)和MapReduce framework。

这个想法是，您可以将许多现成的计算机联网在一起以创建群集。 HDFS在集群上运行。在将数据添加到群集时，会将其分割为大块/块（通常为64MB）并分布在群集周围。 HDFS允许复制数据以允许从硬件故障中恢复。它几乎预计硬件故障，因为它意味着与标准硬件一起工作。 HDFS基于Google关于其分布式文件系统GFS的文章。

Hadoop MapReduce框架运行存储在HDFS上的数据。 MapReduce'工作'旨在以高度并行的方式提供基于关键/价值的处理能力。由于数据分布在集群中，因此可以拆分MapReduce作业，以便对存储在集群上的数据运行许多并行进程。 MapReduce的Map部分只能运行在他们可以看到的数据上，即运行在特定机器上的数据块。 Reduce汇集了来自地图的输出。

结果是提供了高度并行的批处理能力的系统。系统可以很好地扩展，因为您只需添加更多硬件来增加存储功能或缩短MapReduce作业运行的时间。

一些链接：

来源

2010-03-23 02:49:14

有人可以给初学者提供一个关于Hadoop如何工作的高级简单解释吗？

回答

相关问题