Hadoop地图/减少链接
问题描述:
我想连锁2 Map/Reduce作业。我正在尝试使用JobControl来实现相同。我的问题是 -Hadoop地图/减少链接
JobControl需要org.apache.hadoop.mapred.jobcontrol.Job,这反过来需要org.apache.hadoop.mapred.JobConf,它已被弃用。我如何解决这个问题来链接我的Map/Reduce?
任何人有任何更好的想法链接(除了级联)。
感谢, 中号
答
你可以使用Riffle,它可以让你随心所欲链流程在一起(任何你坚持其注释)。
它有一个基本的依赖调度程序,所以它会为你排序和执行你的工作。它是Apache许可的。如果你是maven用户,它也在Conjars repo上。
我是作者,并且写了它,所以Mahout和其他自定义应用程序可以有一个共同的工具,它也与Cascading Flows兼容。
我也是Cascading的作者。但是,对于大多数原始MR作业链,Cascading中的MapReduceFlow + Cascade可以很好地工作。
我有同样的问题,我想知道你做了什么来解决这个问题?我最好只喜欢使用hadoop包而不是使用一个新的(和不弃用的类:)) – 2011-01-21 18:29:37
我结束了没有使用任何链接..原来我正在复杂化我的问题..然而,我没有诉诸使用不推荐使用的JobConf执行不同的任务,因为我无法以任何其他方式访问任务日志。 – Meg 2011-01-27 00:54:01
你为什么不分享你的解决方案?回答你自己的问题,并接受答案作为你的问题的答案。 – Gumbo 2011-03-14 07:38:08