MR过程+shuffle过程

MapReduce的执行流程MR过程+shuffle过程

Shuffle过程

MR过程+shuffle过程

Map的输出结果首先被缓存到内存,当环状缓冲区达到80% (默认大小为100MB),就会启动溢写(Spill)操作,当前启动溢写操作时,首先把缓存中的数据进行分区(partition。默认对key hash后再除以reduce task数量取模。默认的取模方式只是为了平均reduce的处理能力),对每个分区的数据进行排序和合并。之后再写入到磁盘中,每次溢写 都会生成新的磁盘文件,随着Job执行,被溢写出到磁盘的文件会越来越多,在Map任务全部结束之前,这些溢写文件会被归并成一个大的磁盘文件,然后通知相应的Reduce任务来领取属于自己的数据。Reduce任务从Map端fetch属于自己的处理那部分数据,然后对数据进行处理