2015-12-21 134 views
3

我在Azure数据工厂中了解切片(数据集可用性)时遇到了一些问题。假设我有一个永远不会改变的源数据集。然后我出于某种原因为我的源数据集设置了小时分片。每个切片都是相同的吗?在这种情况下使用切片有什么意义(即为什么它是必需的)? 或者另一种情况,假设我的源数据集连续添加了新数据(例如事件日志)。每天早上,我想对日志的所有历史记录进行一些分析。我应该设置每日切片吗?每个片段都会包含完整的历史记录还是最后一天?Azure数据工厂数据集切片

回答

2

切片是在管道的开始和结束属性中定义的时间段内执行管道的时间间隔。 如果您有一个修复源并且您多次执行某个活动,它将始终使用相同的源(因为它不会更改)。假设您将开始时间和结束时间设置为一天,并将频率设置为1小时 - 活动将执行24次。你将有24片,全部使用相同的数据源。

对于第二种情况,如果数据不断变化,则可以将频率设置为每天一次。要处理的内容取决于您在管道中定义的活动 - 可以说管道在完成处理后会删除旧源,或者活动中只有新数据的逻辑。