将本地 SQL 服务器数据库数据以 Parquet 格式复制到 Azure



这里的建筑/性能问题。

我有一个本地SQL服务器数据库,其中有~200个表,总共~10TB。我需要在 Azure 中以 Parquet 格式提供此数据,以便通过 HDInsight Spark 进行数据科学分析。

以 Parquet 格式将此数据复制/转换为 Azure(Blob 存储或数据湖(的最佳方法是什么?

由于任务的可管理性方面(因为~200个表(,我最好的选择是通过sqlcmd将数据本地提取到文件共享,将其压缩为csv.bz2,并使用数据工厂将文件共享(使用"PreserveHierarchy"(复制到Azure。最后运行 pyspark 加载数据,然后将其另存为 .parquet。

给定表模式,我可以自动生成SQL数据提取和python脚本通过 T-SQL 从 SQL 数据库。

是否有更快和/或更易于管理的方法来实现此目的?

ADF 通过一次性和基于计划的数据移动完美满足您的要求。

尝试复制 ADF 向导。有了它,您只需单击几下即可直接将本地 SQL 移动到 Parquet 格式的 blob/ADLS。

复制活动概述

相关内容

  • 没有找到相关文章

最新更新