我有洗牌开始时间的问题。什么时候洗牌开始在Hadoop
让你说我有2个mappers和1个reducer。每个映射器都将生成输出map1和map2。 map1和map2存储在相应datanode的临时磁盘中。
现在减速机应该等待map1和map2的输出吗?换句话说,什么时候洗牌开始?只要map1完成或它必须等待map2完成?
我正在倾听在减速机上洗牌的流量,我无法找到任何交通,但控制台输出显示已完成减速的70%(大约)。
14/12/18 17:45:55 INFO mapred.JobClient: map 97% reduce 22%
14/12/18 17:45:58 INFO mapred.JobClient: map 98% reduce 22%
14/12/18 17:45:59 INFO mapred.JobClient: map 99% reduce 22%
14/12/18 17:46:07 INFO mapred.JobClient: map 100% reduce 22%
14/12/18 17:46:12 INFO mapred.JobClient: map 100% reduce 67%
14/12/18 17:46:15 INFO mapred.JobClient: map 100% reduce 71%
我看到洗牌后的交通流量进入此点后。
我在这里有点困惑。减速机约70%的工作是什么? !
感谢
看看这个SF问题:http://stackoverflow.com/questions/11672676/when-do-reduce-tasks-start-in-hadoop – Ashrith 2014-12-19 06:03:17