2017-04-09 70 views
1

我想制作一个自动化的Spark作业提交系统/程序。 当然,系统需要先提交HDInsight,然后再提交Spark作业。 此外,系统提交基于时间表的火花作业(例如7PM提交作业1,9PM提交作业2)自动化HDInsight Spark配置并按计划提交作业?

实现这些目标的最佳方法是什么?

c.f)我能做些什么

  • 使用PowerShell
  • 供应HDIsinght与李维

回答

0

这听起来像Azure的数据工厂将满足您的需要提交星火工作。从他们的网站:

“Data Factory允许您创建数据驱动的工作流,以在本地和云数据存储之间移动数据,以及使用计算服务(例如Azure HDInsight和Azure Data Lake Analytics)处理/转换数据。创建一个执行所需操作的管道后,可以安排它定期运行(每小时,每天,每周等)。“

资源: https://docs.microsoft.com/en-us/azure/data-factory/data-factory-faq

+0

好像Azure的数据工厂适合我的需要。我会玩DF,然后标记你的答案。 – ShootingStar

0

这听起来像你想的计划自动运行您的火花的作业。所以我认为使用Oozie非常适合您当前的情况,请参考WindowsLinux的Azure官方教程来了解Oozie的概念。同时,教程Use time-based Oozie coordinator with Hadoop in HDInsight to define workflows and coordinate jobs介绍了如何通过时间触发来完成。作为参考,hortonworks线程详细显示了从HDO上的Oozie Workflow运行Spark作业(Azure HDInsight基于HDP)的详细步骤。

希望它有帮助。

+0

是的,真的很有帮助。我认为Oozie适合火花作业调度,但HDInsight必须首先创建。那么创建HDInsight Spark集群调度基数的最佳方式是什么? – ShootingStar

0

您可以使用.Net SDKPowershell自动配置HDInsight实例。

我会用李维提交星火乔布斯解释here