spark六 DAG

spark六 DAG

task的生成:

  • 首先需要stage划分,依据划分的stage来生成task
  • task的数量和分区的数量和sttage的数量是有直接关系的

在发送shuffle的过程中,会产生shuffle write 和shuffle reade

  • shuffle write : 发生在shuf/fle之前,把需要shuffle的数据写到磁盘,保证了数据的可靠性
    为什么在发送shuffle的时候,需要把数据保存到磁盘:
    - 避免占用内存太大出现oom(内存溢出)
    - 保存到磁盘可以保证数据的安全性
  • shuffle reade: 发生在shuffle之后,下游RDD需要读取上游RDD的数据