我使用的是spark独立集群,下面是我的spark-env属性。
export SPARK_EXECUTOR_INSTANCES=432
export SPARK_EXECUTOR_CORES=24
export SPARK_EXECUTOR_MEMORY=36G
export SPARK_DRIVER_MEMORY=24G
我有6个工作节点,如果我试图运行一个有大量文件和联接的作业,它就会陷入困境并失败。我可以看到6个24GB的工作执行人。
你能为我提供任何链接或细节来调整它并理解worker节点和executors概念吗。我提到了cloudera的一个博客,但那更多的是关于纱线的。但是,我需要它用于spark独立集群
嗨,我遇到了和你类似的问题,你可以参考下面的文章,我在阅读了很多调优文章后将这些文章作为书签。希望能有所帮助。
- Spark官方文档:Tuning Spark
- virdata:针对吞吐量调整Spark流
- cloudera:如何:调整Apache Spark作业