Spark的宽窄依赖
RDD之间有一系列的依赖关系,依赖关系又分为窄依赖和宽依赖。
窄依赖
父RDD和子RDD partition之间的关系是一对一的。或者父RDD一个partition只对应一个子RDD的partition情况下的父RDD和子RDD partition关系是多对一的。不会有shuffle的产生。
宽依赖
父RDD与子RDD partition之间的关系是一对多。会有shuffle的产生。
宽窄依赖图理解
RDD之间有一系列的依赖关系,依赖关系又分为窄依赖和宽依赖。
父RDD和子RDD partition之间的关系是一对一的。或者父RDD一个partition只对应一个子RDD的partition情况下的父RDD和子RDD partition关系是多对一的。不会有shuffle的产生。
父RDD与子RDD partition之间的关系是一对多。会有shuffle的产生。
宽窄依赖图理解