Azure数据工厂数据集切片



我在理解Azure数据工厂中的切片(数据集可用性)时遇到了一些问题。假设我有一个永远不会改变的源数据集。然后出于某种原因,我为我的源数据集设置了每小时切片。那么每一片都是一样的吗?在这种情况下使用切片有什么意义(即为什么需要)?或者在另一种情况下,假设我的源数据集连续添加了新数据(例如事件日志)。每天早上,我都想对日志的所有历史进行分析。然后我应该设置每日切片吗?每个切片都包括完整的历史记录还是只包括最后一天?

切片是在管道的开始和结束属性中定义的时间段内执行管道的间隔。如果您有一个修复源,并且执行一个活动不止一次,它将始终使用同一个源(因为它不会更改)。假设您将开始时间和结束时间设置为一天,并将频率设置为1小时-活动将执行24次。您将有24个切片,所有切片都使用相同的数据源。

对于第二种情况,如果数据不断变化,您可以将频率设置为每天一次。将要处理的内容取决于您在管道中定义的活动——假设管道在完成处理后删除旧源,或者活动中存在只获取新数据的逻辑。

最新更新