ElasticSearch : 写入(Write) 原理

之前看到一篇文章,说理论上,ElasticSearch最多只会丢失5s的数据。当时对ElasticSearch的原理还不是十分熟悉,看过就忘了,今天重新找到一篇文章,详细的介绍了为什么ElasticSearch在理论上最多只会丢失5秒钟的数据。

参考链接

对ES的使用,另一方面是了解ES索引原理。可以参考我的另一篇文章,详细说明了,为什么ES可以对PB级别的数据进行快速的检索,ES索引的一切设计都是为了提高搜索的性能,具体参见:

Elasticsearch-基础介绍及索引原理分析

写操作(Write):针对文档的CRUD操作

索引新文档(Create)

当用户向一个节点提交了一个索引新文档的请求,节点会计算新文档应该加入到哪个分片(shard)中。每个节点都存储有每个分片存储在哪个节点的信息,因此协调节点会将请求发送给对应的节点。注意这个请求会发送给主分片,等主分片完成索引,会并行将请求发送到其所有副本分片,保证每个分片都持有最新数据。

每次写入新文档时,都会先写入内存中,并将这一操作写入一个translog文件(transaction log)中,此时如果执行搜索操作,这个新文档还不能被索引到。

ElasticSearch : 写入(Write) 原理

图、新文档被写入内存,操作被写入translog

ES会每隔1秒时间(这个时间可以修改)进行一次刷新操作(refresh),此时在这1秒时间内写入内存的新文档都会被写入一个文件系统缓存(filesystem cache)中,并构成一个分段(segment)。此时这个segment里的文档可以被搜索到,但是尚未写入硬盘,即如果此时发生断电,则这些文档可能会丢失。

ElasticSearch : 写入(Write) 原理

图、在执行刷新后清空内存,新文档写入文件系统缓存

不断有新的文档写入,则这一过程将不断重复执行。每隔一秒将生成一个新的segment,而translog文件将越来越大。

ElasticSearch : 写入(Write) 原理

图、translog不断加入新文档记录

每隔30分钟或者translog文件变得很大,则执行一次fsync操作。此时所有在文件系统缓存中的segment将被写入磁盘,而translog将被删除(此后会生成新的translog)。

ElasticSearch : 写入(Write) 原理

图、执行fsync后segment写入磁盘,清空内存和translog

由上面的流程可以看出,在两次fsync操作之间,存储在内存和文件系统缓存中的文档是不安全的,一旦出现断电这些文档就会丢失。所以ES引入了translog来记录两次fsync之间所有的操作,这样机器从故障中恢复或者重新启动,ES便可以根据translog进行还原。

当然,translog本身也是文件,存在于内存当中,如果发生断电一样会丢失。因此,ES会在每隔5秒时间或是一次写入请求完成后将translog写入磁盘。可以认为一个对文档的操作一旦写入磁盘便是安全的可以复原的,因此只有在当前操作记录被写入磁盘,ES才会将操作成功的结果返回发送此操作请求的客户端。

此外,由于每一秒就会生成一个新的segment,很快将会有大量的segment。对于一个分片进行查询请求,将会轮流查询分片中的所有segment,这将降低搜索的效率。因此ES会自动启动合并segment的工作,将一部分相似大小的segment合并成一个新的大segment。合并的过程实际上是创建了一个新的segment,当新segment被写入磁盘,所有被合并的旧segment被清除。

ElasticSearch : 写入(Write) 原理
图、合并segment

ElasticSearch : 写入(Write) 原理

图10、合并完成后删除旧segment,新segment可供搜索