spark六 DAG
task的生成:
- 首先需要stage划分,依据划分的stage来生成task
- task的数量和分区的数量和sttage的数量是有直接关系的
在发送shuffle的过程中,会产生shuffle write 和shuffle reade
- shuffle write : 发生在shuf/fle之前,把需要shuffle的数据写到磁盘,保证了数据的可靠性
为什么在发送shuffle的时候,需要把数据保存到磁盘:
- 避免占用内存太大出现oom(内存溢出)
- 保存到磁盘可以保证数据的安全性 - shuffle reade: 发生在shuffle之后,下游RDD需要读取上游RDD的数据