2012-02-10 55 views
0

在Hadoop中如何每天处理不断增长的数据:Hadoop中如何处理日益增多的数据

例如:

第一天我可能有一些输入文件夹1个百万个文件(如Hadoop的/演示)

第2天在同一个文件夹中,文件可以从现有的1个百万个文件+另一个新的1个百万个文件增大,从而达2万元。

同样第3天和第4天......不断去。

我的约束是 - >第1天的文件不应该在第二天处理。

(即)当新文件与它们一起添加时,已处理的文件不应该再次处理。更具体地说,只有新增的文件应该被处理,旧的文件应该被忽略。

所以帮我解决这个问题。

如果您不明白约束条件,请说明不清楚的地方,以便我可以详细说明我的约束条件!

回答

2

这不是hadoop本身支持的somethinkg,因为它是应用程序逻辑的一部分。 我会建议一些基于HDFS的解决方案,因此您将有数据尚待处理的目录(或更好的目录的子目录层次结构)。
你的日常工作应采取的所有数据在那里,过程中它并移动到“处理”文件夹中。
平时权衡这是有意义的是使逻辑在一些文件中的意外双倍的处理不会造成问题的方式。
。在这种情况下,处理后的作业崩溃,但在移动之前不会产生问题。相反,每天调度
你可能会使用一些wokrflow工具能够说谎通过Oozie的数据可用性触发工作,alhough我个人没有使用过呢。

+0

正如David所言,Oozie非常适合这类问题,并将帮助您跟踪哪些日子无法处理 – 2012-03-22 21:10:30