Spark 内存管理模型

在工作中有时候我们可能会遇到Spark内存溢出问题，因此有必要了解一下Spark是如何进行内存管理的。在Spark 1.6.0以后的版本中，内存管理模型如下：
Spark 内存管理模型
这里面可以看到三个核心组成部分：
1.Reserved memory
这是系统保留的内存，其大小是固定的，对于Spark1.6.0 来说其大小为300M，意味着300M RAM不参与Spark内存空间计算。
2.User memory
这一部分是分配完Spark memory后剩余的部分。这部分可以用来存储用在RDD transformation过程的数据结构。在Spark 1.6.0中，这一部分大小可以用(“Java Heap” – “Reserved Memory”) * (1.0 – spark.memory.fraction)来计算，默认是(“Java Heap” – 300MB) * 0.25。
3.Spark memory
这是Apache Spark管理的内存池，其大小可以用(“Java Heap” – “Reserved Memory”) * spark.memory.fraction来计算，在Spark 1.6.0中默认是(“Java Heap” – 300MB) * 0.75
。这一部分可以分为两个区间：Storage memory和Execution memory, 他们的大小是通过 spark.memory.storageFraction参数来设置的，默认是0.5，值得注意的是这一比例并不是静止不变的。

Storage memory:主要用来存储Spark的缓存数据，如RDD缓存，broadcast变量
Execution memory:主要用来存储shuffle,join, sort,aggregation计算过程的临时数据。比如可以用来存储map side的shuffle的中间结果，也可以用来存储hash aggregation的hash table。

Reference：https://0x0fff.com/spark-memory-management/

Spark 内存管理模型

相关推荐