加快Azure数据工厂中的复制任务



我有一个复制作业应在两个Azure DataLake之间复制100 GB的Excel文件。

 "properties": {
        "activities": [
            {
                "name": "Copy Data1",
                "type": "Copy",
                "policy": {
                    "timeout": "7.00:00:00",
                    "retry": 0,
                    "retryIntervalInSeconds": 30,
                    "secureOutput": false,
                    "secureInput": false
                },
                "typeProperties": {
                    "source": {
                        "type": "AzureDataLakeStoreSource",
                        "recursive": true,
                        "maxConcurrentConnections": 256
                    },
                    "sink": {
                        "type": "AzureDataLakeStoreSink",
                        "maxConcurrentConnections": 256
                    },
                    "enableStaging": false,
                    "parallelCopies": 32,
                    "dataIntegrationUnits": 256
                },
                "inputs": [
                    {
                        "referenceName": "SourceLake",
                        "type": "DatasetReference"
                    }
                ],
                "outputs": [
                    {
                        "referenceName": "DestLake",
                        "type": "DatasetReference"
                    }
                ]
            }
        ],

我的吞吐量约为4 Mb/s。当我在这里阅读时,应该是56 MB/s。我应该怎么做才能达到此吞吐量?

您可以使用副本Actives性能调整来帮助您通过复制活动调整Azure数据出厂服务的性能。

摘要

采取这些步骤来调整Azure数据工厂服务的性能。

  1. 建立一个基线。在开发阶段,通过使用代表性数据样本的复制活动来测试管道。在复制活动监控后收集执行详细信息和绩效特征。

  2. 诊断和优化性能。如果您观察到的表现无法满足您的期望,请确定性能瓶颈。然后,优化性能以删除或减少瓶颈的效果。

在某些情况下,当您在Azure Data Factory中运行复制活动时,您会在复制活动监视页面的顶部看到"性能调整技巧"消息,如下示例所示。该消息告诉您针对给定副本运行的瓶颈。它还指导您更改的内容以增强复制吞吐量。

您的文件约为100 GB大小。但是,基于文件的商店的测试文件是多个文件,大小为10 GB。性能可能不同。

希望这会有所帮助。

相关内容

  • 没有找到相关文章

最新更新