2016-03-07 58 views
5

我在Azure“数据工厂”中设置管道,用于从存储中获取平面文件并将它们加载到Azure SQL DB中的表中。了解Azure数据工厂管道中的开始和结束时间

此管道的模板指定我需要一个开始和结束时间,其中the tutorial表示设置为1天。

我想了解这一点。如果它是Linux中的CRON任务或Windows Server中的计划任务,那么我只是简单地告诉它何时开始(即每天早上6点),并且需要很长时间才能完成。

这导致我的几个相关问题:

  • 为什么我需要指定的结束时间?
  • 如果我不知道运行需要多长时间会怎样?
  • 如果我将来设置得太远,是否会冒数据管道未能及时完成的​​风险?
  • 如果我设置得太快,管道是否会中断?
  • 为什么硬编码的日期,而不是一个频率(即它说,使用这种格式 - “2014-10-14T16:32:41Z”)

我发现a prior question它揭示了一点说明如何做频率而不是硬编码的日期,但是我的问题仍然没有得到解决。

回答

4

如示例所示,1天计划只是一个示例,用于突出显示如果频率设置为每小时1天的情况下您期望24个活动窗口的概念。

为什么我需要指定结束时间?

如果您希望可以使管道无限期运行,则不必指定结束时间。但是,您可能有商业上的理由来设定结束时间,例如与每年的商业周期一致。总体管道开始和结束时间适用于其中的活动收集。活动将按照您设置的频率(小时,每天等)运行,以确定数据集的活动和可用性。您还可以设置活动的开始时间,或者设置活动的开始时间,或者抵消或延迟它们(例如,如果您想要今天处理昨天的数据),或者设置过去的开始日期以回填数据。

为什么它被硬编码为日期而不是频率?

流水线开始和结束是日期而不是频率的原因是因为它是流水线活动的整个日期间隔,并且单个处理活动处理它们运行的​​频率和时间。

如果我不知道需要多长时间才能运行该怎么办?

一旦活动开始,他们将运行完成。如果他们超过了结束日期,管道将无法启动新的活动。

如果我将来设置得太远,是否会冒数据管道无法及时完成的​​风险?

不,及时完成只与您的群集大小,数据量和并发设置有关。

如果我设置得太快,管道是否会中断?

见上面

我们提供这种计划的复杂性,让您可以在组织协调多种服务,同时让ADF管理云资源,而不是仅仅踢了一个cron作业更加灵活。在我们的文档中有更多关于调度的细微信息https://azure.microsoft.com/en-us/documentation/articles/data-factory-scheduling-and-execution/

+0

嗨@Sonia,有关如何更改数据工厂中的时区的任何想法?它目前基于UTC。 – Ariox66

+1

我认为这里缺少的关键是:当你指定开始和结束时间和时间表时,它会预先生成一个大的“时间片”列表。所以如果你每天的日程安排为3年,它将产生3 X 365时间片条目。你可以去处理那些特定的时间片。如果您想在过去运行带'timeslice参数'的作业,您会发现它是时间片并运行它。如果你想在未来运行一个来测试它...运气不好我无法得到这个工作(虽然我还在学习) –

0

为什么我需要指定结束时间?

在ADF1中,如果您指定了开始时间,则必须指定结束时间。 如果您没有指定开始和结束时间,那很好,您将能够部署管道,但管道中的活动不会触发。

相关问题