您的位置: 首页 > 文章 > spark六 DAG

spark六 DAG

分类: 文章 • 2025-02-07 12:03:43

spark六 DAG

task的生成:

首先需要stage划分,依据划分的stage来生成task
task的数量和分区的数量和sttage的数量是有直接关系的

在发送shuffle的过程中,会产生shuffle write 和shuffle reade

shuffle write : 发生在shuf/fle之前,把需要shuffle的数据写到磁盘,保证了数据的可靠性
为什么在发送shuffle的时候,需要把数据保存到磁盘:
- 避免占用内存太大出现oom(内存溢出)
- 保存到磁盘可以保证数据的安全性
shuffle reade: 发生在shuffle之后,下游RDD需要读取上游RDD的数据