我想制作一个自动化的Spark作业提交系统/程序。 当然,系统需要先提交HDInsight,然后再提交Spark作业。 此外,系统提交基于时间表的火花作业(例如7PM提交作业1,9PM提交作业2)自动化HDInsight Spark配置并按计划提交作业?
实现这些目标的最佳方法是什么?
c.f)我能做些什么
- 使用PowerShell
- 供应HDIsinght与李维
我想制作一个自动化的Spark作业提交系统/程序。 当然,系统需要先提交HDInsight,然后再提交Spark作业。 此外,系统提交基于时间表的火花作业(例如7PM提交作业1,9PM提交作业2)自动化HDInsight Spark配置并按计划提交作业?
实现这些目标的最佳方法是什么?
c.f)我能做些什么
这听起来像Azure的数据工厂将满足您的需要提交星火工作。从他们的网站:
“Data Factory允许您创建数据驱动的工作流,以在本地和云数据存储之间移动数据,以及使用计算服务(例如Azure HDInsight和Azure Data Lake Analytics)处理/转换数据。创建一个执行所需操作的管道后,可以安排它定期运行(每小时,每天,每周等)。“
资源: https://docs.microsoft.com/en-us/azure/data-factory/data-factory-faq
这听起来像你想的计划自动运行您的火花的作业。所以我认为使用Oozie非常适合您当前的情况,请参考Windows或Linux的Azure官方教程来了解Oozie的概念。同时,教程Use time-based Oozie coordinator with Hadoop in HDInsight to define workflows and coordinate jobs
介绍了如何通过时间触发来完成。作为参考,hortonworks线程详细显示了从HDO上的Oozie Workflow运行Spark作业(Azure HDInsight基于HDP)的详细步骤。
希望它有帮助。
是的,真的很有帮助。我认为Oozie适合火花作业调度,但HDInsight必须首先创建。那么创建HDInsight Spark集群调度基数的最佳方式是什么? – ShootingStar
您可以使用.Net SDK或Powershell自动配置HDInsight实例。
我会用李维提交星火乔布斯解释here
好像Azure的数据工厂适合我的需要。我会玩DF,然后标记你的答案。 – ShootingStar