如何在 Spark 群集中配置执行程序的内存。另外,如何配置每个工作节点的执行程序数量?
有没有办法知道有多少执行程序的内存可以缓存或保留新的RDD。
配置 Spark 执行程序内存 - 提交作业时使用参数 spark.executor.memory
或键--executor-memory
配置每个节点的执行程序数取决于用于 Spark 的计划程序。对于 YARN 和 Mesos,您无法控制这一点,您可以设置执行器的数量。对于 Spark 独立群集,可以调整SPARK_WORKER_INSTANCES
参数
您可以在 Spark 驱动程序的 WebUI 中检查可用内存量。请参阅此处如何设置 Apache Spark 执行器内存,了解为什么这不等于您设置的总执行程序内存