Kafka 文件存储机制（详细过程，完美解决）

一，kafka简介

Kafka最初由Linkedin公司开发的分布式、分区的、多副本的、多订阅者的消息系统。它提供了类似于JMS的特性，但是在设计实现上完全不同，此外它并不是JMS规范的实现。kafka对消息保存时根据Topic进行归类，发送消息者成为Producer；消息接受者成为Consumer；此外kafka集群有多个kafka实例组成，每个实例(server)成为broker。无论是kafka集群，还是producer和consumer都依赖于zookeeper来保证系统可用性集群保存一些meta信息。本文不打算对Apache Kafka的原理和实现进行介绍，而在编程的角度上介绍如何使用Apache Kafka。我们分别介绍如何编写Producer、Consumer以及Partitioner等。

二，kafka存储文件

1，在kafka集群中，每个broker（一个kafka实例称为一个broker）中有多个topic，topic数量可以自己设定。在每个topic中又有多个partition，每个partition为一个分区。kafka的分区有自己的命名的规则，它的命名规则为topic的名称+有序序号，这个序号从0开始依次增加。

2，在每个partition中有可以分为多个segment file。当生产者往partition中存储数据时，内存中存不下了，就会往segment file里面存储。kafka默认每个segment file的大小是500M，在存储数据时，会先生成一个segment file，当这个segment file到500M之后，再生成第二个segment file 以此类推。每个segment file对应两个文件，分别是以.log结尾的数据文件和以.index结尾的索引文件。

Kafka 文件存储机制（详细过程，完美解决）

每个segment file也有自己的命名规则，每个名字有20个字符，不够用0填充。每个名字从0开始命名，下一个segment file文件的名字就是，上一个segment file中最后一条消息的索引值。在.index文件中，存储的是key-value格式的，key代表在.log中按顺序开始第条消息，value代表该消息的位置偏移。但是在.index中不是对每条消息都做记录，它是每隔一些消息记录一次，避免占用太多内存。即使消息不在index记录中，在已有的记录中查找，范围也大大缩小了。

Kafka 文件存储机制（详细过程，完美解决）

三，kafka如何查找文件

此时在kafka中各个partition中已经存储了数据。由于之前存储是按照顺序存储的，各个segment file文件命名也时有一定规则的，这种存储规则使得查找文件会很快速。

1，假设需要查找offest=12345的消息，通过二分查找法可以很快速的定位到该文件所在的.index和.log文件。这一步就查找到该消息所在的segment file文件。

2，在该segment file文件中查找该消息。通过.index索引文件，快速的查找到该消息在.log中的位置，查找文件就完成了。

Kafka 文件存储机制（详细过程，完美解决）

一，kafka简介

二，kafka存储文件

三，kafka如何查找文件

相关推荐