SRE:Google运维解密(心得)
风险与可用性
在一个运行的系统中,出现风险是不可能避免的,而运维工程师的存着便是控制并解决风险。
书中提到构建百分百可靠的服务是不可取的,因为一个服务面向用户的不止是可靠,还有创新。当可靠性达到一定的数量级后,再花费大量的成本在可靠性上而忽略服务的创新,这种方式得不偿失。
书中还提到可用性为多少个‘9’这个概念
上面提到额外一个‘9’便是向100%可用性的数量级上的提高,但同样提高一个‘9’所花费的成本也是需要考虑的。
错误预算
指在服务在季度中可以接受多少不可靠性,允许出多少错。
错误预算出现的原因:(两个团队的关注点冲突)
其目的是平衡两个团队在关注点的冲突,给这个冲突提供一个缓冲区。
当这个缓冲区还未满时,研发可以提高创新速度。
当这个缓冲区快满时,研发就需要更多的考虑可靠性。
总结:
一个公司的最终目的便是盈利,在可用性和成本之间是需要一定的权衡。
用户对产品的体验也是需要在可靠性和创新之间权衡。
而用户对不同的产品敏感度也是不同的,在不同产品中的可靠性也需要权衡。
可靠性团队与创新团队的关注点冲突也需要权衡。