hadoop如何存储数据并使用MapReduce？

当我试图了解hadoop体系结构时，我想弄清楚一些问题。当有大数据输入时，HDFS会将它分成许多卡盘（每个卡盘64MB或128MB），然后复制很多时间将它们存储在内存块中，对吧？hadoop如何存储数据并使用MapReduce？

不过，我仍然不知道在什么地方MapReduce工作。它是用来分割和合并数据来存储它吗？或使用它来返回一些有用的输出？

2015-04-26 Coda Chang

在HDFS存储数据是不是与MapReduce的范例分析这是一个非常不同的事情。

当上传到HDFS，大数据文件splited成被存储在数据节点的块，并且每个块被复制多次配置的复制因子（默认为3）。数据拆分就像将文件除以配置的块大小一样简单。

MapReduce的，如说，是一种编程范式分析大数据文件时，为了获得增值信息。简而言之，每个文件块都被分配给一个map任务，以便所有的mappers在chunck上执行相同的操作;一旦完成，输出的部分结果就会发送给reducers以便以某种方式聚合数据。

2015-04-26 20:30:09 frb

Thx。所以，这意味着。如果我只想将文件存储到HDFS中，则不会使用MapReduce。当我尝试分析大数据时会出现MapReduce，对吧？ –

对，MapReduce仅用于分析数据。 – frb

好的，非常感谢 –

回答