Zookeeper限量版入门教程
简介
Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。
工作机制
从设计模式上来说是基于发布订阅模式实现的,他负责存储和管理大家都比较关心的数据,然后接受观察者注册,一旦数据数据发生变化,zk就会通知已经在zk上注册的观察者。
一句话总结: 文件系统+通知机制
ps:一般是集群模式运行,因为zk系统本身也需要达到高可用,也就是我们常说的HA架构,学习阶段可以考虑安装单机版。
简述工作机制图:
特点
- zk集群模式也是一个Leader和多个Follower
- 集群中半数以上的节点存活,zk就能正常工作
- 全局数据一致性,每个Sever都保存一份相同的副本。
- 数据更新原子性,更新要么全成功要么全失败,理解为数据库中的事务
- 实时性 在一定时间范围内,Client总能拿到最新数据
数据结构
树状结构,和Linux或者windows下的目录结构是类似的,总体可以看作一棵树,每一个节点是ZNode
ZNode的四种类型:
- 持久化目录节点(persistent)
当客户端与zk服务端断开连接的时候,该节点依然存在。 - 持久化顺序编号目录节点(PERSISTENT_SEQUENTIAL)
客户端与zookeeper断开连接后,该节点依旧存在,只是Zookeeper给该节点名称进行顺序编号 - 临时目录节点(EPHEMERAL)
客户端与zookeeper断开连接后,该节点被删除 - 临时顺序编号目录节点(EPHEMERAL_SEQUENTIAL)
客户端与zookeeper断开连接后,该节点被删除,只是Zookeeper给该节点名称进行顺序编号
安装以及配置说明
本人还是在windows下安装了三个,伪分布式,就是懒,后面会出一个专栏,专门在Linux下安装大数据相关的包。
搭建比较方便,愿意和我一样懒得可以 1446028125 直接拷贝给你。
配置说明:
改配置文件的值:
- ticktime:客户端与zk服务器心跳时间,单位ms
- initlimit:leader与follower之间初始通信时间,也就是集群中的leader 和follower第一次连接的最大能容忍的时间。
- synclimit:leader和follower之间最大的响应次数,一般发生在同步数据的时候,如果响应时间超过了synclimit*ticktime,那么follower将被踢出列表。
- dataDir:数据文件目录+数据持久化目录
- clientPort:客户端连接端口
常用命令列表
命令 | 功能 |
---|---|
create | 创建节点 |
ls path | 查看当前znode中所包含的内容 |
ls2 path 或者ls -s path | 查看当前节点数据并能看到更新次数等数据 |
get path | 获取当前节点的值 |
set | 设置当前节点的值 |
delete | 删除当前节点的值 |
rmr | 递归删除节点的值 |
-s | 含有序列 |
-e | 临时,用户创建节点类型时使用 |
stat | 获取节点状态 |
命令演示
ls / 查看到节点下有如下节点:有些时kafka相关,可以看博客kafka从入门到关门篇
ls2 / 获取节点的详细信息
get path
其他命令亦是如此不再演示。
Stat结构体
从上面最后一个演示的命令获取到节点的内容信息但是这些字段戴白什么意思呢?
- czxid-创建节点的事务zxid。
每次修改ZooKeeper状态都会收到一个zxid形式的时间戳,也就是ZooKeeper事务ID。
事务ID是ZooKeeper中所有修改总的次序。每个修改都有唯一的zxid,如果zxid1小于zxid2,那么zxid1在zxid2之前发生。 - ctime - znode被创建的毫秒数(从1970年开始)
- mzxid - znode最后更新的事务zxid
- mtime - znode最后修改的毫秒数(从1970年开始)
- pZxid-znode最后更新的子节点zxid
- cversion - znode子节点变化号,znode子节点修改次数
- dataversion - znode数据变化号
- aclVersion - znode访问控制列表的变化号
- ephemeralOwner- 如果是临时节点,这个是znode拥有者的session id。如果不是临时节点则是0。
- dataLength- znode的数据长度
- numChildren - znode子节点数量
zk集群写文件流程
选举机制
半数机制:集群中半数以上机器存活,集群可用。所以Zookeeper适合安装奇数台服务器。
自动选举机制:Zookeeper虽然在配置文件中并没有指定Master和Slave。但是,Zookeeper工作时,是有一个节点为Leader,其他则为Follower,Leader是通过内部的选举机制临时产生的。
选举过程:
假设有五台服务器组成的Zookeeper集群,它们的id从1-5,同时它们都是最新启动的,也就是没有历史数据,在存放数据量这一点上,都是一样的。假设这些服务器依序启动,来看看会发生什么,如下图所示:
- 服务器1启动,发起一次选举。服务器1投自己一票。此时服务器1票数一票,不够半数以上(3票),选举无法完成,服务器1状态保持为LOOKING;
- 服务器2启动,再发起一次选举。服务器1和2分别投自己一票并交换选票信息:此时服务器1发现服务器2的ID比自己目前投票推举的(服务器1)大,更改选票为推举服务器2。此时服务器1票数0票,服务器2票数2票,没有半数以上结果,选举无法完成,服务器1,2状态保持LOOKING
- 服务器3启动,发起一次选举。此时服务器1和2都会更改选票为服务器3。此次投票结果:服务器1为0票,服务器2为0票,服务器3为3票。此时服务器3的票数已经超过半数,服务器3当选Leader。服务器1,2更改状态为FOLLOWING,服务器3更改状态为LEADING;
- 服务器4启动,发起一次选举。此时服务器1,2,3已经不是LOOKING状态,不会更改选票信息。交换选票信息结果:服务器3为3票,服务器4为1票。此时服务器4服从多数,更改选票信息为服务器3,并更改状态为FOLLOWING;
- 服务器5启动,同4一样当小弟。