在一个spark集群上,多个pyspark程序将按什么顺序执行



如果我向spark-submit命令提交多个python(pyspark(文件,它们将按哪个顺序执行?

对于Java,有一个main方法将首先执行,其余类将按照创建/调用其对象/methdos的顺序执行。

但是python(还有scala(允许整个REPL风格的语法,允许以"开放代码"的方式键入命令,即在方法块之外。

所以,当一大堆REPL语句被提交到spark集群时,它们将以什么顺序执行?

根据http://spark.apache.org/docs/3.0.1/configuration.html

spark.submit.pyFiles(即--py-files(:用逗号分隔的.zip、.egg或.py文件列表,用于Python应用程序的PYTHONPATH。允许使用金球奖。

因此,--py-files添加的python文件是库、模块或包,而不是可运行的脚本。您需要创建一个main.py或类似的文件,然后导入其他5个文件,并按照您想要的spark-submit --py-files five-files.zip main.py的任何顺序触发

最新更新