2015-04-26 52 views
1

当我试图了解hadoop体系结构时,我想弄清楚一些问题。 当有大数据输入时,HDFS会将它分成许多卡盘(每个卡盘64MB或128MB),然后复制很多时间将它们存储在内存块中,对吧?hadoop如何存储数据并使用MapReduce?

不过,我仍然不知道在什么地方MapReduce工作。它是用来分割和合并数据来存储它吗?或使用它来返回一些有用的输出?

回答

1

在HDFS存储数据是不是与MapReduce的范例分析这是一个非常不同的事情。

当上传到HDFS,大数据文件splited成被存储在数据节点的块,并且每个块被复制多次配置的复制因子(默认为3)。数据拆分就像将文件除以配置的块大小一样简单。

MapReduce的,如说,是一种编程范式分析大数据文件时,为了获得增值信息。简而言之,每个文件块都被分配给一个map任务,以便所有的mappers在chunck上执行相同的操作;一旦完成,输出的部分结果就会发送给reducers以便以某种方式聚合数据。

+0

Thx。所以,这意味着。如果我只想将文件存储到HDFS中,则不会使用MapReduce。当我尝试分析大数据时会出现MapReduce,对吧? –

+0

对,MapReduce仅用于分析数据。 – frb

+0

好的,非常感谢 –