Azure 数据工厂 - 输出数据集是否真的对 HDInsightHive 类型的活动很重要



我们在管道中创建的任何活动都必须有一个输出数据集 - 我相信这纯粹是语法规则,以防活动是"HDInsightHive"类型。因为无论如何,实际的输出目标将由 HQL 查询本身确定。例如,在我们的例子中,HQL 查询是从某个表中选择行并将行插入到某个其他外部表中。因此,最终是HQL决定了输出的去向。目标表的名称出现在 HQL 本身中(插入覆盖表名..)。因此,在这种情况下,在活动中定义的输出数据集似乎仅充当语法胶水,必须存在才能存在。这是对的吗?

确实,

您可以定义数据在 HQL 查询中的位置,就像在 USQL 查询中一样。 在我看来,输出数据集的主要功能是它允许您将输出管道到另一个活动中。 如果未定义输出数据集,或者使用与 HQL 脚本放置输出的位置不匹配的文件夹定义该数据集,则无法将该数据集用作其他活动的输入。 如果您的所有管道始终以 HQL 活动结束,并且您在那之后永远不需要执行任何操作,那么我可以看到似乎不需要输出数据集。

相关内容

  • 没有找到相关文章

最新更新