通过MS Databricks或ADF将多个csv中的数据从blob存储累积到hive表中

你能帮我找到下一个任务的最佳实践吗?我有一个与SAS共享的blob存储。在文件夹层次结构中有多个csv，如root_folder ->leve1_folders→level2_folders→csv。我需要首先读取存在的每个csv，将其保存为hive表，然后将新数据附加到hive表，一旦新的文件夹与csv (level1_folders ->level2_folders→Csv)上传。对我来说，问题是阅读最后上传的文件夹只有csv，新的文件夹名称可能不同，但文件名总是一样的。

用csv (level1_folders ->level2_folders→

以上需求可以通过Azure数据工厂使用"事件触发器"来实现。

数据集成场景通常需要客户触发基于存储帐户中发生的事件的管道，例如到达或删除Azure Blob存储帐户中的文件。数据工厂和Synapse管道与Azure Event原生集成网格，它允许您在此类事件上触发管道。

限制:存储事件触发器目前只支持Azure数据湖存储Gen2和通用版本2存储帐户。

因此，您需要将简单blob存储转换为Hierarchical namespace，使其成为ADLS帐户。

参考:创建一个触发器，运行一个管道来响应一个存储事件

相关内容

最新更新

热门标签：