在 Azure 数据工厂中执行 python 脚本

我把我的数据存储在blob中，我写了一个python脚本来做一些计算并创建另一个csv。如何在 Azure 数据工厂中执行此操作？

可以使用 Azure 数据工厂 V2 自定义活动来满足要求。您可以使用自定义活动直接执行命令以调用 Python 脚本。

请参考 GitHub 上的此示例。

另一种选择是使用 DatabricksSparkPython Activity。如果要横向扩展，这是有意义的，但可能需要对 PySpark 支持进行一些代码修改。原因的先决条件是 Azure 数据砖工作区。必须将脚本上传到 DBFS，并可以通过 Azure 数据工厂触发它。以下示例触发脚本 pi.py：

{
"activity": {
"name": "MyActivity",
"description": "MyActivity description",
"type": "DatabricksSparkPython",
"linkedServiceName": {
"referenceName": "MyDatabricksLinkedservice",
"type": "LinkedServiceReference"
},
"typeProperties": {
"pythonFile": "dbfs:/docs/pi.py",
"parameters": [
"10"
],
"libraries": [
{
"pypi": {
"package": "tensorflow"
}
}
]
}
}
}

有关更多详细信息，请参阅文档。

相关内容

最新更新

热门标签：