2015-06-07 56 views
2

我有一个API,它以xml格式返回数据。将API数据传输到通过Flume的hadoop

我想每天运行它并将返回的数据存储在Hadoop中。通过建立水槽文件后丢失位。任何人都有从上面简单的外部API通过flume /使用oozie调度它的简单外部API提取数据的用例的端到端步骤?

目前,我已经创建了一个Java程序,它可以将数据提取出来,并将其放置在文件中,其格式为:really_ddmmyyyyhhmmss.xml,随后使用类似的命名制表符分隔的txt格式,以方便使用。我可以每天敲它,并在配置单元中创建外部表以指向文件的位置。对我来说看起来不像是优雅的解决方案。

回答