如何在Hadoop中迭代MapReduce？（lang：python）

我写了一个MapReduce程序（mapper.py和reducer.py）来处理Hadoop中的PageRank问题。如何在Hadoop中迭代MapReduce？（lang：python）

我想迭代MapReduce约10次迭代。我怎样才能将第一轮MapReduce的输出转化为第二轮MapReduce的输入？

 1     2       10 
[mapper->reducer] -> [mapper->reducer] -> ... -> [mapper->reducer] -> final result

2017-04-13 Wen

阿帕奇星火GraphX具有的PageRank内置 –

您可以将job1的输出作为输入链接到job2。

inputdir1 - > outputdir1 - > outputdir2 ... - > outputdir9 - > outputdir10

2017-04-13 20:42:57 tk421

如何在Hadoop中迭代MapReduce？ （lang：python）