从 Cloud Source 启动 Dataproc PySpark 作业



>我目前正在使用来自 Airflow 的DataProcPySparkOperator启动 PySpark,并在 Cloud Storage 中使用脚本

run_pyspark_job = dataproc_operator.DataProcPySparkOperator(
task_id='run-dataproc-pyspark',
main='gs://my-repo/my-script.py',
project_id=PROJECT_ID,
cluster_name=CLUSTER_NAME,
region='europe-west4'
)

无论如何可以从云源存储库传递脚本吗?对于给定的存储库,可以获得脚本的绝对链接,但DAG似乎不接受该链接。

https://source.cloud.google.com/my-organisation/my-repo/+/master:my-script.py

有什么办法可以实现吗?

引用的所有Python和Jar文件必须来自HDFS或HDFS兼容文件系统,或者位于Google Cloud Storagebucket中。有关更多信息,您可以参考气流文档。

要创建云存储存储桶,您可以使用以下命令Make Bucket

gsutil mb -l us-central1 gs://$DEVSHELL_PROJECT_ID-data

您可以按如下方式执行此操作:

如果要使用云源存储库中的文件,首先需要克隆存储库,然后将数据内容复制到Google Cloud Storage。

gsutil cp -r dir1/dir2 gs://$DEVSHELL_PROJECT_ID-data

我希望您发现上述信息有用。

相关内容

  • 没有找到相关文章

最新更新