Hadoop“样式” - 组块与成千上万的（k，v）对

我正在处理大量包含对应于美国国家航空航天局MODIS网格的数据矩阵的大文件 - 网格将地球表面分割成21,600 x 4300像素阵列。这个特定的数据集给每个像素一个整数值。Hadoop“样式” - 组块与成千上万的（k，v）对

我有大约200个文件，每月一个文件，并且需要为每个像素创建一个时间序列。

我的问题是，对于采用这些文件之一的地图任务，我应该将网格切成24,000像素的块，然后将它们作为值（以位置和时间段作为关键点）发送，或者简单地为每个单个像素发出一个键值对，像规范字数计数例子中的单词那样处理一个像素？

分块工作正常，它只是在我的程序中引入了一个任意的“块大小”变量。我的感觉是，这会为IO节省很多时间，但这只是一种感觉，我期待真正的知情意见！

在我工作的Hadoop项目中，我可以确认K，V对的数量对负载，CPU时间和IO有直接影响。如果你可以限制块的数量，并保持足够的可扩展性为你的情况，我一定会尝试去那里。

2011-02-01 08:22:43

根据经验，并确认我的其他研究。非常感谢！ – 2011-02-01 16:32:43

回答