服务多分片下的文件log问题
1. 常见错误
当你的服务开了多个分片,并且这多个分片打同一个log文件时,经常会出一些问题,比如:
- log打串,分片之间产生的请求log相互交叉,阅读起来极为困难;
- 甚至会出现行内串掉的情况,比如一个分片一行还没打完,另外一个分片就将内容插入到这一行了;
2. rotate带来的错误
如果你的log文件使用了rotate,并且所有分片都有rotate的逻辑,那更糟糕,还可能报错,比如下面的错误:
这个错误产生的根本原因是log文件丢失,咦,为什么log文件会丢了呢?
在python里面,rotate的逻辑有两步:
(假设我们老的log文件名叫root.log
)
- 将旧的log文件重命名,即:将
root.log
重命名为root.log.1
- 重新创建同名log文件,即:新创建一个
root.log
文件
于是我们在研究下多分片下,一开始同时读取了root.log
文件,当rotate不同步时,可能会出现的问题:
- 状态:
root.log
。这是我们的初始状态,还没有任何分片rotate。 - 状态:
root.log root.log.1
。这一步,有一个分片进行了rotate,第1步的root.log
就是这一步的root.log.1
,这一步的root.log
是这个分片新生成的文件。由于另一个分片还没rotate,你会发现另一个分片的日志会打到root.log.1
,因为这个文件就是它认为的(老的)root.log
。 - 状态:
root.log root.log.1
。这一步,另一个分片进行了rotate,它将第2步的root.log
重命名为第3步的root.log.1
,创建了一个新的root.log
,这时候你发现,第一步的root.log
,也就是第2步的root.log.1
已经没了,消失了。
当再有一个分片加载那个log文件要打日志时,找不到文件了。我画个图就很明了了:
图中我们能明显看到,1中的root.log
,即2中的root.log.1
丢了,被分片2干掉了。现在分片3还加载着那个文件呢,它一打log就报IOError
了。
3. 解决方法
生产部署的服务,应该把所有的log打到控制台,依靠k8s或者swarm的命令按照容器查看log。多分片本质是不同的容器,所以它们之间的log是相互隔离的。
或者你应该使用elk等工具将容器log收集起来,并将服务名、容器名也收集。
所以,生产环境下的多分片,就不要依赖文件log了,会出很多问题。