小贝子编程

如何在Spark2-submits之间保持火花群集

我需要通过执行Spark2-Submit来处理输入数据文件，以通过PySpark脚本处理输入文件。我观察到的是，对于每一个Spark2-提交，Spark在进行最新输入文件的数据处理之前会做很多初始化。这导致延迟。我如何在Spark2-Submits之间保持火花群集？

单独但相关的问题：除了Spark2-Submit，还可以使用哪些其他机制提交有效载荷以spark？

事先感谢您的见解。

cluster

除非您在local模式下使用Spark（那里确实没有群集）群集在不同的应用程序之间保留。

SparkContext和Sparksession

是本地对象。那里的寿命不能超过应用程序。如果初始化时间不可接受，则可以调整应用程序以使用应用程序。

最新更新