第142课:Spark面试经典系列之Cache和Checkpoint
Spark面试经典系列之Cache和Checkpoint
1、Cache
2、Checkpoint
Cache:当我们想复用数据的时候一般都会进行Cache,在实际生产环境下复用RDD是最重要的性能优化手段之一(当然,如果能够实现优良的RDD的复用,一定是建立在同时驾驭业务和技术的基础之上的)。所谓的Cache其实是把数据经过第一次计算放在了BlockManager中。
Checkpoint:相当于Cache的备胎,Checkpoint的数据会放在容错的文件系统中,进行Checkpoint的RDD一般都会首先进行Cache来避免数据的重复计算