我们简单的 post 请求为自包含的pyspark
模块livy
工作正常。但是,我们有可重用的组件被多个pyspark
模块使用。此外,我们使用--job
参数从main.py
模块触发所有代码。
以下是文件夹结构:
main.py
jobs.zip
jobs
job1
__init__.py
job2
__init__.py
以下spark-submit
命令工作正常。但是,我们正试图弄清楚如何使用livy api
传递--job
参数。
/usr/local/spark/bin/spark-submit
--py-files jobs.zip
src/main.py
--job value1
调用 REST API 到/batches端点,使用下面的示例 JSON,
{"file":"Path to File containing the application to execute","args":["--job","value1"],"pyFiles":[List of Python files to be used in this session]}
请参考 : https://livy.incubator.apache.org/docs/latest/rest-api.html