我有一个复制作业应在两个Azure DataLake之间复制100 GB的Excel文件。
"properties": {
"activities": [
{
"name": "Copy Data1",
"type": "Copy",
"policy": {
"timeout": "7.00:00:00",
"retry": 0,
"retryIntervalInSeconds": 30,
"secureOutput": false,
"secureInput": false
},
"typeProperties": {
"source": {
"type": "AzureDataLakeStoreSource",
"recursive": true,
"maxConcurrentConnections": 256
},
"sink": {
"type": "AzureDataLakeStoreSink",
"maxConcurrentConnections": 256
},
"enableStaging": false,
"parallelCopies": 32,
"dataIntegrationUnits": 256
},
"inputs": [
{
"referenceName": "SourceLake",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "DestLake",
"type": "DatasetReference"
}
]
}
],
我的吞吐量约为4 Mb/s。当我在这里阅读时,应该是56 MB/s。我应该怎么做才能达到此吞吐量?
您可以使用副本Actives性能调整来帮助您通过复制活动调整Azure数据出厂服务的性能。
摘要:
采取这些步骤来调整Azure数据工厂服务的性能。
-
建立一个基线。在开发阶段,通过使用代表性数据样本的复制活动来测试管道。在复制活动监控后收集执行详细信息和绩效特征。
-
诊断和优化性能。如果您观察到的表现无法满足您的期望,请确定性能瓶颈。然后,优化性能以删除或减少瓶颈的效果。
在某些情况下,当您在Azure Data Factory中运行复制活动时,您会在复制活动监视页面的顶部看到"性能调整技巧"消息,如下示例所示。该消息告诉您针对给定副本运行的瓶颈。它还指导您更改的内容以增强复制吞吐量。
您的文件约为100 GB大小。但是,基于文件的商店的测试文件是多个文件,大小为10 GB。性能可能不同。
希望这会有所帮助。