2
我有很多的小文件,说超过20000多个小文件作为输入映射减少
我想节省花费在映射器初始化时间,所以是有可能只使用500映射器,每处理40小文件作为它的输入?
如果可能,我需要关于如何实现这种输入格式的指导,谢谢!
顺便说一句,我知道我应该合并这些小文件,这一步也是需要的。
我有很多的小文件,说超过20000多个小文件作为输入映射减少
我想节省花费在映射器初始化时间,所以是有可能只使用500映射器,每处理40小文件作为它的输入?
如果可能,我需要关于如何实现这种输入格式的指导,谢谢!
顺便说一句,我知道我应该合并这些小文件,这一步也是需要的。
CombineFileInputFormat可以使用。它存在于old和new MR API中。关于如何使用它,这是一个不错的blog entry。
我明白了,谢谢:) – ygnhzeus 2012-07-13 17:15:04