MapReduce的map阶段内存详解

1.在HDFS文件系统读取数据

MapReduce的map阶段内存详解

2.对数据进行合并

MapReduce的map阶段内存详解

3.进行逻辑切分

MapReduce的map阶段内存详解

4.ReduceRead

  • 将数据进行切分 key为行首字母的偏移量 value为对应的行数据
  • MapReduce的map阶段内存详解

5.根据业务需求书写map的java代码

MapReduce的map阶段内存详解

6.讲数据读取到内存缓冲区(默认100M)中

MapReduce的map阶段内存详解

7.读到一定的阈值(默认0.8)往外面写出一个小文件

MapReduce的map阶段内存详解
MapReduce的map阶段内存详解

8.写出到达一定的文件时进行一定的个数(默认10个)时进行合并

MapReduce的map阶段内存详解

9.最终写出磁盘

MapReduce的map阶段内存详解