整个MapReduce的运行过程

input --> map --> shuffle -->reduce --->output

以wordcount数据模型为例

Map的输出数据模式如下：<hadoop,1><spark,1>以<key,value>对的形式存在

因为map阶段是对整个文件中的每一个元素进行处理，对于Map的输出量是很大的。

1>Map的数据会写入到内存(环形缓冲区：默认大小:100m),当数据达到缓冲区总容量的80%（阈值）的时候，会将数据spill到本地磁盘

2>当Map阶段数据处理完成之后,会将spill到磁盘的数据进行合并

在1中提到，每次数据达到缓冲区容量的阈值时，会将数据spilll到磁盘，此时会在该目录下产生很多小文件

3>当map阶段数据处理完成之后，各个reduce任务主动到已经完成的map任务的本地磁盘中去拉去属于自己要处理的数据，最后形成一个文件

整个流程的图片参考
MapReduce的Shuffle过程

PS:以下图片来自卡弗卡大数据，侵删

MapReduce的Shuffle过程