如何使用气流触发google dataproc作业并传递参数



作为DAG的一部分,我正在使用下面的代码触发gcp pyspark dataproc作业,

dag=dag,
gcp_conn_id=gcp_conn_id,
region=region,
main=pyspark_script_location_gcs,
task_id='pyspark_job_1_submit',
cluster_name=cluster_name,
job_name="job_1"
)

如何将变量作为参数传递给可以在脚本中访问的pyspark作业?

可以使用DataProcPySparkOperator的参数arguments:

参数

(列表)-工作的理由。(模板)

job = DataProcPySparkOperator(
gcp_conn_id=gcp_conn_id,
region=region,
main=pyspark_script_location_gcs,
task_id='pyspark_job_1_submit',
cluster_name=cluster_name,
job_name="job_1",
arguments=[
"-arg1=arg1_value", # or just "arg1_value" for non named args
"-arg2=arg2_value"
],
dag=dag
)

最新更新