Spark Memory tuning



有人能告诉我如何调整spark执行器核心、内存和执行器数量吗。我读到的关于这方面的所有文档都来自集群端(https://spoddutur.github.io/spark-notes/distribution_of_executors_cores_and_memory_for_spark_application.html(。但我想知道如何调整这些与特定输入文件相关的参数。

例如:我不想在同一个集群中对1GB使用与250Gb相同的参数。

您可以在这里找到一篇选择正确火花参数的优秀文章。

在spark执行器/内核/内存的配置中提供极端重要性的目的是确保在处理任何输入大小(1 GB、100 GB、1 TB(的文件时,以最佳方式充分利用所有资源,以实现最大并行性。

从输入文件数据的角度来看,必须使输入文件的分区大小正确(默认情况下为128MB(,并确保分区数据适合执行器内存而不会溢出(理想情况(。还要记住,每个数据分区将由执行器中的单个内核处理,因此执行器内存应该能够容纳多个输入分区(分区等于执行器中没有内核(,以实现最佳执行时间。

以下参数将控制每个分区的字节数。

spark.files.maxPartitionBytes

最新更新