Spark 内存管理模型

在工作中有时候我们可能会遇到Spark内存溢出问题,因此有必要了解一下Spark是如何进行内存管理的。在Spark 1.6.0以后的版本中,内存管理模型如下:
Spark 内存管理模型
这里面可以看到三个核心组成部分:
1.Reserved memory
这是系统保留的内存,其大小是固定的,对于Spark1.6.0 来说其大小为300M, 意味着300M RAM不参与Spark内存空间计算。
2.User memory
这一部分是分配完Spark memory后剩余的部分。这部分可以用来存储用在RDD transformation过程的数据结构。在Spark 1.6.0中,这一部分大小可以用(“Java Heap” – “Reserved Memory”) * (1.0 – spark.memory.fraction)来计算,默认是(“Java Heap” – 300MB) * 0.25。
3.Spark memory
这是Apache Spark管理的内存池,其大小可以用(“Java Heap” – “Reserved Memory”) * spark.memory.fraction来计算,在Spark 1.6.0中默认是(“Java Heap” – 300MB) * 0.75
。这一部分可以分为两个区间:Storage memory和Execution memory, 他们的大小是通过 spark.memory.storageFraction参数来设置的,默认是0.5,值得注意的是这一比例并不是静止不变的。

Storage memory:主要用来存储Spark的缓存数据,如RDD缓存,broadcast变量
Execution memory:主要用来存储shuffle,join, sort,aggregation计算过程的临时数据。比如可以用来存储map side的shuffle的中间结果,也可以用来存储hash aggregation的hash table。

Reference:https://0x0fff.com/spark-memory-management/