在Hadoop中如何每天处理不断增长的数据:Hadoop中如何处理日益增多的数据
例如:
第一天我可能有一些输入文件夹1个百万个文件(如Hadoop的/演示)
第2天在同一个文件夹中,文件可以从现有的1个百万个文件+另一个新的1个百万个文件增大,从而达2万元。
同样第3天和第4天......不断去。
我的约束是 - >第1天的文件不应该在第二天处理。
(即)当新文件与它们一起添加时,已处理的文件不应该再次处理。更具体地说,只有新增的文件应该被处理,旧的文件应该被忽略。
所以帮我解决这个问题。
如果您不明白约束条件,请说明不清楚的地方,以便我可以详细说明我的约束条件!
正如David所言,Oozie非常适合这类问题,并将帮助您跟踪哪些日子无法处理 – 2012-03-22 21:10:30