使用用户定义的参数通过 livy 提交 pyspark 作业



我们简单的 post 请求为自包含的pyspark模块livy工作正常。但是,我们有可重用的组件被多个pyspark模块使用。此外,我们使用--job参数从main.py模块触发所有代码。

以下是文件夹结构:

main.py
jobs.zip
jobs
job1
__init__.py
job2
__init__.py

以下spark-submit命令工作正常。但是,我们正试图弄清楚如何使用livy api传递--job参数。

/usr/local/spark/bin/spark-submit 
--py-files jobs.zip 
src/main.py 
--job value1 

调用 REST API 到/batches端点,使用下面的示例 JSON,

{"file":"Path to File containing the application to execute","args":["--job","value1"],"pyFiles":[List of Python files to be used in this session]}

请参考 : https://livy.incubator.apache.org/docs/latest/rest-api.html

最新更新