Azure数据工厂(Graph Data Connect/Office365链接服务):如何使用二进制接收器数据集



以下是我正在做的事情。我的公司需要我将所有组成员及其相应的组转储到SQL数据库中。Power Automate花费了太多的循环和API调用。。。所以我第一次尝试数据工厂。使用Office365链接服务,我们可以获取所有组织成员,但唯一兼容的接收器选项是Azure Blob存储(或DataLake(,因为接收器必须是二进制的。好的,好的。因此,我们配置并设置了Azure Blob存储帐户。

但现在管道"复制数据"已经完成(4小时后?(,我不知道该如何处理这些二进制数据。似乎没有函数、方法或数据流选项可以将二进制数据解释为JSON、分隔文本或其他形式。存储帐户显示了1042个不同的Blob,从几千字节到几十兆字节不等(为什么??(。数据工厂中没有任何东西可以解释这些二进制数据,并允许我将所需的列转储到SQL中吗?

我能够将blob数据加载到Power Automate中,并使用base64和JSON函数将其解析为可用的JSON,但这是拆东墙补西墙,因为我必须循环加载1042个不同blob的内容,而且我已经超过了我们的带宽配额。除此之外,水滴中的一些内容是空的!!(再次…为什么??(

我到处找答案,运气不好。因此,感谢您的真知灼见。

您可以在Copy activityGetMetadata activityDelete activity。使用二进制数据集时,服务不解析文件内容,但按原样处理。

因此,Binary数据集不支持用于转换Azure数据工厂中数据的data flow activity

因此,您可以将Azure Service用于另一种方法,如Azure Databricks,在该方法中,您可以使用首选编程语言的Python OpenCV或任何其他数据工程库。

最新更新