0
我一直注意到这种行为,当我有许多KB的小gz文件。 Hadoop
工作需要更多时间才能完成。相比之下,当我将这些小gz文件合并成一个大的gz文件。另外,小gz文件情况下的映射器数量与文件数量相同,为什么是这样呢?但在后一种情况下,它只是一个。那么,这可能是一个原因,是吗?随着输入gz文件数量的增加,Hadoop作业完成时间增加
我一直注意到这种行为,当我有许多KB的小gz文件。 Hadoop
工作需要更多时间才能完成。相比之下,当我将这些小gz文件合并成一个大的gz文件。另外,小gz文件情况下的映射器数量与文件数量相同,为什么是这样呢?但在后一种情况下,它只是一个。那么,这可能是一个原因,是吗?随着输入gz文件数量的增加,Hadoop作业完成时间增加