hadoop中MR的切片机制源码分析

上篇关于job提交的源码分析中我们将整体流程大概分析了,本篇重点分析关于其中submit提交过程中对于文件的切片机制进行讨论

在JobSubmitter类中200行左右进行了文件分片的处理,进入其中

hadoop中MR的切片机制源码分析

再进入主要的writeNewSplits()方法

hadoop中MR的切片机制源码分析

没有配置的情况下,默认是TextInputFormat,此时调用的是其继承与父类FileInputFormat的getSplits()方法

hadoop中MR的切片机制源码分析

其中具体获取最大值、最小值的方法如下图

hadoop中MR的切片机制源码分析

hadoop中MR的切片机制源码分析

在切片中最重要的就是如下核心代码:

hadoop中MR的切片机制源码分析

实际读取数据是重写了父类的方法

hadoop中MR的切片机制源码分析

以上就是全部切片的源码分析了,如果有什么问题和建议欢迎在评论区留言