如何配置火花溢出磁盘的位置



我在官方文档中找不到这个配置。假设我决定安装spark,或者使用spark docker映像。我想配置其中的";溢出到磁盘";这样我就可以装载一个可以容纳它的卷。泄漏到磁盘的默认位置在哪里?如何更改它?

云或裸金属工作节点的每个节点都有溢出位置本地文件系统,而不是HDFS。这是标准处理的,但不是由您明确表示。一定量的fs用于溢出,混洗和是本地fs,其余用于HDFS。您可以命名位置或者让HDFS为本地fs处理,或者fs可以是NFS等

  • 例如,对于Docker,您需要模拟的HDFS或一些类似linux的fs来进行Spark中间处理。看见https://www.kdnuggets.com/2020/07/apache-spark-cluster-docker.html出色的导游。

  • 对于带有YARN的Spark,请使用yarn.nodemanager.local-dirs。看见https://spark.apache.org/docs/latest/running-on-yarn.html

  • 对于Spark Standalone,请使用SPARK_LOCAL_DIRS"划痕";Spark中的空间,包括映射输出文件和存储在磁盘上的RDD。它应该在系统中的快速本地磁盘上。它也可以是不同磁盘上多个目录的逗号分隔列表。

最新更新