2017-04-26 81 views
0

的过程我有数据。我正在使用Pig流程此数据。 PigSummarize数据将存储在Hive中。然后配置单元表使用Sqoop在RDBMS中导出。现在我需要自动化所有这个过程。这是可能的,我会写所有这些任务3特定的方法在的MapReduce,然后运行该的MapReduce工作,而所有这些任务由一个执行一个。 对于创建MapReduce作业,我想使用。 NetSDK。所以我的问题是这是可能的,并且如果建议一些步骤和参考链接这个问题。 谢谢。在<strong>CSV格式</strong>在自动化HDFS <strong></strong>(天青<strong>HDInsight</strong>)猪,配置单元,Sqoop

+0

不知道的.Net SDK,但您可以将所有那些Oozie的工作流的东西通过运行猪/蜂巢和ECT”行动的情况下,向您发送电子邮件 - 让我知道你是否需要更多细节 – Mzf

+0

感谢您的回复。它真的会帮助我。 错误我写了MapReduce作业,我应该使用HiveJob,PigJob,SqoopJob。 再次感谢。 – Ishvari

回答

0

如果您需要定期执行这些任务,我会建议使用Oozie。看看现有的example,它有相当不错的文档

如果你没有这个框架在你的云上,你可以编写自己的MR,但是我有Oozie你可以编写DAG流程,其中图表上的每个动作都可以是猪/ bash/hive/hdfs等等。

它可以运行每X日/小时/分钟,并且可以在故障