2012-07-20 62 views
0

如果从2个不同datanode上运行的2个不同映射器获得相同的键/值对,并且如果我使用单个reducer,如何消除重复键/值对,并防止它进入减速机?消除来自hadoop中映射器的重复键/值对

我是否应该使用组合器,然后检查相同密钥是否有重复值,然后在组合器中将其消除?但是组合器将来自单个映射器的所有键值对作为输入,对吗?

回答

2

减速机的职责就是处理这种重复。我认为hadoop没有办法正是因为这个原因。
正如您指出的正确方式 - 组合器将不会完全帮助这里,但只减少这种复制的数量