Azure 数据工厂数据流中的"Dataset"源和"Inline"源之间的区别?



这两种源类型之间的区别是什么"数据集";以及";内联";Azure数据工厂中的数据流源?在哪种情况下我应该使用一个而不是另一个?

我已经阅读了微软的官方文档,但我不明白:

当内联和数据集对象都支持一种格式时,两者都有好处。数据集对象是可重复使用的实体,可用于其他数据流和活动(如Copy(。当您使用强化模式时,这些可重用实体特别有用。数据集不基于Spark。有时,您可能需要覆盖源转换中的某些设置或模式投影。

当您使用灵活的模式、一次性源实例或参数化源时,建议使用内联数据集。如果您的源是高度参数化的,内联数据集允许您不创建";伪";对象内联数据集基于Spark,其属性是数据流的原生属性。

数据集是一个额外的抽象级别,在历史上是必需的。数据集肯定有自己的位置,因为它们提供了架构和参数等附加功能,但最初的要求意味着,即使是一次性项目,您的存储库中也经常会出现许多数据集对象。

内联允许您访问某些(但不是全部(链接服务资源,而无需创建另一个数据集对象。如果您的操作不需要架构,或者不需要在多个项目中重用数据集对象,那么内联是一个更干净的选项。我会提到这一点,因为你引用的文档确实如此:内联可以使用管道参数,所以解决方案仍然可以是动态的。

至于推荐,我会从内联开始,当情况合适时,我会升级到数据集。

简而言之:内联连接到";链接服务";对象数据集连接到";数据集";对象…因为他们存在于民主同盟军。

"数据集";其本身连接到一个";"链接服务";,因此,使用内联只是跳过一个(有时(不必要的对象。

最新更新