MR过程+shuffle过程

MapReduce的执行流程 MR过程+shuffle过程

Shuffle过程

MR过程+shuffle过程

Map的输出结果首先被缓存到内存，当环状缓冲区达到80% （默认大小为100MB），就会启动溢写(Spill)操作，当前启动溢写操作时，首先把缓存中的数据进行分区(partition。默认对key hash后再除以reduce task数量取模。默认的取模方式只是为了平均reduce的处理能力)，对每个分区的数据进行排序和合并。之后再写入到磁盘中，每次溢写都会生成新的磁盘文件，随着Job执行，被溢写出到磁盘的文件会越来越多，在Map任务全部结束之前，这些溢写文件会被归并成一个大的磁盘文件，然后通知相应的Reduce任务来领取属于自己的数据。Reduce任务从Map端fetch属于自己的处理那部分数据，然后对数据进行处理

相关推荐