通过MS Databricks或ADF将多个csv中的数据从blob存储累积到hive表中



你能帮我找到下一个任务的最佳实践吗?我有一个与SAS共享的blob存储。在文件夹层次结构中有多个csv,如root_folder ->leve1_folders→level2_folders→csv。我需要首先读取存在的每个csv,将其保存为hive表,然后将新数据附加到hive表,一旦新的文件夹与csv (level1_folders ->level2_folders→Csv)上传。对我来说,问题是阅读最后上传的文件夹只有csv,新的文件夹名称可能不同,但文件名总是一样的。

用csv (level1_folders ->level2_folders→

以上需求可以通过Azure数据工厂使用"事件触发器"来实现。

数据集成场景通常需要客户触发基于存储帐户中发生的事件的管道,例如到达或删除Azure Blob存储帐户中的文件。数据工厂和Synapse管道与Azure Event原生集成网格,它允许您在此类事件上触发管道。

限制:存储事件触发器目前只支持Azure数据湖存储Gen2和通用版本2存储帐户。

因此,您需要将简单blob存储转换为Hierarchical namespace,使其成为ADLS帐户。

参考:创建一个触发器,运行一个管道来响应一个存储事件

相关内容

  • 没有找到相关文章

最新更新