我想从前提sql server上加载数据到blob存储,并在adf中使用复制活动,目标文件是parquet,该大小为5 GB。
管道运行良好,他写了一个镶木quet文件,现在我需要在多个镶木点文件中将此文件拆分以用poly base和其他用途优化加载数据。
使用Spark我们可以通过此语法将文件分区:
df.repartition(5(.write.parquet(" path"(
简短的问题,简短答案。
分区的数据:https://learn.microsoft.com/en-us/azure/data-factory/how-to-to-to-read-write-partitioned-data
镶木式格式:https://learn.microsoft.com/en-us/azure/data-factory/format-parquet
blob存储连接器:https://learn.microsoft.com/en-us/azure/data-factory/connector-azure-blob-storage
希望这有帮助!