一、什么是checkpoint？

简单来说，若不使用HA时，hadoop的checkpoint机制就是主节点的元数据备份机制，通过Secondary Namenode，每隔一段时间将Name Node的元数据更新并备份，然后返回fsimage给Name Node，供其下次启动时读取

二、具体原理

Hadoop原理之checkpoint机制

首先，有一个主节点Name Node（NN），同时还有一个Secondary NameNode（SNN），可将SNN看作NN的“秘书”，这个“秘书”默认每隔60分钟，都会通知NN滚动更新日志信息edits，以便后续的元数据备份操作

要知道，元数据是保存在内存当中的，这样就使得元数据很容易丢失，但是由于NN工作量已经很大，要管理众多DataNode，还要更新操作日志文件edits等，若同时还要将元数据信息序列化到本地磁盘中，这样是非常慢且耗费资源的，所以此时SNN就会开始其工作，代替NN完成元数据的保存工作

当集群启动时，NN和SNN都会启动，NN启动后会读取最新的fsimage文件，读到较新的元数据信息，同时还会读取最新的日志信息，根据日志信息的内容“回滚”上一次开机时的操作信息，这样即可保证当前的元数据信息是完整正确的

SNN会隔一段时间就去NN下载其fsimage文件和众多edits文件，下载到SNN的本机上，然后将fsimage反序列化到内存中，同时“回放”众多日志文件中的操作信息，更新补全元数据，元数据更新完毕后，SNN就会将该元数据对象序列化到本地磁盘中，然后再将该元数据对象发送给NN，供其下一次开机读取

上述内容就是简略的checkpoint机制，其实有许多参数是可以设置的，不过一般都是用默认值，例如NN中最多只会保留两份最新的fsimage文件，最多保留10000个最新的edits文件，最多保留1000000条操作记录等等