2012-07-13 61 views
2

我有很多的小文件,说超过20000多个小文件作为输入映射减少

我想节省花费在映射器初始化时间,所以是有可能只使用500映射器,每处理40小文件作为它的输入?

如果可能,我需要关于如何实现这种输入格式的指导,谢谢!

顺便说一句,我知道我应该合并这些小文件,这一步也是需要的。

回答

3

CombineFileInputFormat可以使用。它存在于oldnew MR API中。关于如何使用它,这是一个不错的blog entry

+0

我明白了,谢谢:) – ygnhzeus 2012-07-13 17:15:04