ElasticSearch : 写入(Write) 原理

之前看到一篇文章，说理论上，ElasticSearch最多只会丢失5s的数据。当时对ElasticSearch的原理还不是十分熟悉，看过就忘了，今天重新找到一篇文章，详细的介绍了为什么ElasticSearch在理论上最多只会丢失5秒钟的数据。

参考链接

对ES的使用，另一方面是了解ES索引原理。可以参考我的另一篇文章，详细说明了，为什么ES可以对PB级别的数据进行快速的检索，ES索引的一切设计都是为了提高搜索的性能，具体参见：

Elasticsearch－基础介绍及索引原理分析

写操作（Write）：针对文档的CRUD操作

索引新文档（Create）

当用户向一个节点提交了一个索引新文档的请求，节点会计算新文档应该加入到哪个分片（shard）中。每个节点都存储有每个分片存储在哪个节点的信息，因此协调节点会将请求发送给对应的节点。注意这个请求会发送给主分片，等主分片完成索引，会并行将请求发送到其所有副本分片，保证每个分片都持有最新数据。

每次写入新文档时，都会先写入内存中，并将这一操作写入一个translog文件（transaction log）中，此时如果执行搜索操作，这个新文档还不能被索引到。

ElasticSearch : 写入(Write) 原理

图、新文档被写入内存，操作被写入translog

ES会每隔1秒时间（这个时间可以修改）进行一次刷新操作（refresh），此时在这1秒时间内写入内存的新文档都会被写入一个文件系统缓存（filesystem cache）中，并构成一个分段（segment）。此时这个segment里的文档可以被搜索到，但是尚未写入硬盘，即如果此时发生断电，则这些文档可能会丢失。

ElasticSearch : 写入(Write) 原理

图、在执行刷新后清空内存，新文档写入文件系统缓存

不断有新的文档写入，则这一过程将不断重复执行。每隔一秒将生成一个新的segment，而translog文件将越来越大。

ElasticSearch : 写入(Write) 原理

图、translog不断加入新文档记录

每隔30分钟或者translog文件变得很大，则执行一次fsync操作。此时所有在文件系统缓存中的segment将被写入磁盘，而translog将被删除（此后会生成新的translog）。

ElasticSearch : 写入(Write) 原理

图、执行fsync后segment写入磁盘，清空内存和translog

由上面的流程可以看出，在两次fsync操作之间，存储在内存和文件系统缓存中的文档是不安全的，一旦出现断电这些文档就会丢失。所以ES引入了translog来记录两次fsync之间所有的操作，这样机器从故障中恢复或者重新启动，ES便可以根据translog进行还原。

当然，translog本身也是文件，存在于内存当中，如果发生断电一样会丢失。因此，ES会在每隔5秒时间或是一次写入请求完成后将translog写入磁盘。可以认为一个对文档的操作一旦写入磁盘便是安全的可以复原的，因此只有在当前操作记录被写入磁盘，ES才会将操作成功的结果返回发送此操作请求的客户端。

此外，由于每一秒就会生成一个新的segment，很快将会有大量的segment。对于一个分片进行查询请求，将会轮流查询分片中的所有segment，这将降低搜索的效率。因此ES会自动启动合并segment的工作，将一部分相似大小的segment合并成一个新的大segment。合并的过程实际上是创建了一个新的segment，当新segment被写入磁盘，所有被合并的旧segment被清除。

ElasticSearch : 写入(Write) 原理
图、合并segment

ElasticSearch : 写入(Write) 原理

图10、合并完成后删除旧segment，新segment可供搜索

ElasticSearch : 写入(Write) 原理

写操作（Write）：针对文档的CRUD操作

索引新文档（Create）

相关推荐