我把我的数据存储在blob中,我写了一个python脚本来做一些计算并创建另一个csv。如何在 Azure 数据工厂中执行此操作?
可以使用 Azure 数据工厂 V2 自定义活动来满足要求。您可以使用自定义活动直接执行命令以调用 Python 脚本。
请参考 GitHub 上的此示例。
另一种选择是使用 DatabricksSparkPython Activity。如果要横向扩展,这是有意义的,但可能需要对 PySpark 支持进行一些代码修改。原因的先决条件是 Azure 数据砖工作区。必须将脚本上传到 DBFS,并可以通过 Azure 数据工厂触发它。以下示例触发脚本 pi.py:
{
"activity": {
"name": "MyActivity",
"description": "MyActivity description",
"type": "DatabricksSparkPython",
"linkedServiceName": {
"referenceName": "MyDatabricksLinkedservice",
"type": "LinkedServiceReference"
},
"typeProperties": {
"pythonFile": "dbfs:/docs/pi.py",
"parameters": [
"10"
],
"libraries": [
{
"pypi": {
"package": "tensorflow"
}
}
]
}
}
}
有关更多详细信息,请参阅文档。