是否可以获取已经运行的 Spark 应用程序的 Spark上下文



我在 Amazon EMR 上运行 spark,使用 yarn 作为集群管理器。我正在尝试编写一个 python 应用程序,该应用程序启动并在内存中缓存数据。如何允许其他python程序访问该缓存数据,即

我启动一个应用程序 Pcache ->缓存数据并保持该应用程序运行。另一个用户可以访问运行不同实例的相同缓存数据。

我的理解是,应该有可能处理已经运行的 sparkContext 并访问该数据?这可能吗?或者我是否需要在该 Spark 应用程序之上设置一个 API 才能访问该数据。或者可以使用类似 Spark Job Server of Livy 的东西。

无法在多个进程之间共享 SparkContext。事实上,你的选择是自己构建API,一个服务器持有SparkContext,它的客户端告诉它如何处理它,或者使用Spark Job Server,它是它的通用实现。

我认为这可以帮助你。 :)

classmethod getOrCreate(conf=None)
Get or instantiate a SparkContext and register it as a singleton object.
Parameters: conf – SparkConf (optional)

http://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.SparkContext.getOrCreate

相关内容

  • 没有找到相关文章

最新更新