2011-01-31 54 views
2

我正在处理大量包含对应于美国国家航空航天局MODIS网格的数据矩阵的大文件 - 网格将地球表面分割成21,600 x 4300像素阵列。这个特定的数据集给每个像素一个整数值。Hadoop“样式” - 组块与成千上万的(k,v)对

我有大约200个文件,每月一个文件,并且需要为每个像素创建一个时间序列。

我的问题是,对于采用这些文件之一的地图任务,我应该将网格切成24,000像素的块,然后将它们作为值(以位置和时间段作为关键点)发送,或者简单地为每个单个像素发出一个键值对,像规范字数计数例子中的单词那样处理一个像素?

分块工作正常,它只是在我的程序中引入了一个任意的“块大小”变量。我的感觉是,这会为IO节省很多时间,但这只是一种感觉,我期待真正的知情意见!

回答

0

在我工作的Hadoop项目中,我可以确认K,V对的数量对负载,CPU时间和IO有直接影响。如果你可以限制块的数量,并保持足够的可扩展性为你的情况,我一定会尝试去那里。

+0

根据经验,并确认我的其他研究。非常感谢! – 2011-02-01 16:32:43

相关问题