MapReduce进程以及WordCount分析

一.MapReduce进程

MapReduce进程以及WordCount分析

二. 官方WordCount源码

采用反编译工具反编译源码,发现WordCount案例有Map类、Reduce类和驱动类。且数据的类型是Hadoop自身封装的序列化类型。

 常用数据序列化类型

表4-1 常用的数据类型对应的Hadoop数据序列化类型

Java类型

Hadoop Writable类型

boolean

BooleanWritable

byte

ByteWritable

int

IntWritable

float

FloatWritable

long

LongWritable

double

DoubleWritable

String

Text

map

MapWritable

array

ArrayWritable

MapReduce编程规范

用户编写的程序分成三个部分:MapperReducerDriver

MapReduce进程以及WordCount分析

MapReduce进程以及WordCount分析

MapReduce进程以及WordCount分析