2012-07-24 164 views
0

我有一个应用程序每天或每小时或者随机地向S3写入数据,另一个应用程序将数据从S3读取到本地HBase。有没有什么办法可以告诉最后一次更新上传的文件是什么,然后再读取文件,换句话说,增量复制文件?将文件从S3增量复制到本地hdfs

例如: 第1天:App1将文件1,2,3写入文件夹1; App2将这3个文件读取到HBase; 第4天:App1写入文件4 & 5至文件夹1,6,7,8至文件夹2; APP2需要从文件夹中读出从文件夹1 4 & 5,然后6,7,8 2.

感谢

回答

0

上次更改报头字段可以被用来处理根据创建日期数据。这需要客户端的内置逻辑来存储已处理的项目和新项目。您可以简单地存储您处理的日期,以便将所有内容都视为新的。

实施例:

s3cmd ls s3://test 
2012-07-24 18:29 36303234 s3://test/dl.pdf 

查看在该文件的前面的日期。

相关问题