2010-11-12 122 views
4

我想连锁2 Map/Reduce作业。我正在尝试使用JobControl来实现相同。我的问题是 -Hadoop地图/减少链接

JobControl需要org.apache.hadoop.mapred.jobcontrol.Job,这反过来需要org.apache.hadoop.mapred.JobConf,它已被弃用。我如何解决这个问题来链接我的Map/Reduce?

任何人有任何更好的想法链接(除了级联)。

感谢, 中号

+0

我有同样的问题,我想知道你做了什么来解决这个问题?我最好只喜欢使用hadoop包而不是使用一个新的(和不弃用的类:)) – 2011-01-21 18:29:37

+0

我结束了没有使用任何链接..原来我正在复杂化我的问题..然而,我没有诉诸使用不推荐使用的JobConf执行不同的任务,因为我无法以任何其他方式访问任务日志。 – Meg 2011-01-27 00:54:01

+0

你为什么不分享你的解决方案?回答你自己的问题,并接受答案作为你的问题的答案。 – Gumbo 2011-03-14 07:38:08

回答

0

你可以使用Riffle,它可以让你随心所欲链流程在一起(任何你坚持其注释)。

它有一个基本的依赖调度程序,所以它会为你排序和执行你的工作。它是Apache许可的。如果你是maven用户,它也在Conjars repo上。

我是作者,并且写了它,所以Mahout和其他自定义应用程序可以有一个共同的工具,它也与Cascading Flows兼容。

我也是Cascading的作者。但是,对于大多数原始MR作业链,Cascading中的MapReduceFlow + Cascade可以很好地工作。

0

Cloudera公司有一个名为Oozie工作流工具,可以用这种链接的帮助。可能只是为了让一份工作接踵而至。