为什么地图变换很窄?
答
- 窄依赖性:像图,工会RDD操作,过滤器可以在单个分区操作,并且该分区的数据映射到得到的单分区。这些将数据从一个分区映射到一个分区的操作称为窄操作。缩小的操作不需要跨分区分布数据。
- 宽依赖性:像groupByKey,distinct,join这样的RDD操作可能需要将数据映射到新RDD中的分区之间。这种将数据从一个分区映射到多个分区的操作被称为宽操作
另一种考虑它的方式是这样的。子RDD的任何行将仅取决于父RDD的1行。由于每个子行都可以指向它所依赖的父行,因此存在较窄的依赖关系。