还不知道AIOps嘛?阿里这么火的智能运维,你不能不知道!

本次直播视频精彩回顾,戳这里! 

演讲嘉宾简介:
王肇刚(梓弋)阿里云高级技术专家

以下内容根据演讲嘉宾视频分享以及PPT整理而成。

本文将围绕一下几个方面进行介绍:
1. 阿里巴巴故障治理业务流程及挑战
2. 智能运维实战之异常检测和根因推荐
3. AIOps智能运维解决方案

本文主要关注线上业务的研发和运维流程,如今有很多工具可以帮助大家研发协同和部署,但业务通过产品技术发挥价值的一个必要条件就是可以在线上稳定持续的运行。如果业务运行出现故障,业务价值将无法得到保障和发挥。相信大家在使用天猫、淘宝、支付宝时几乎没有遇到过无法使用的情况,这有两个原因:一是阿里的系统稳定性非常好,二是一些局部故障在用户感知之前已经由内部的监控系统发现并解决了。大家一定熟知DevOps一词,而本文标题中的AIOps则是DevOps未来发展的一个趋势。AIOps将机器学习算法引入了运维中的监控和故障分析领域,探索更有效稳定的线上运行效果。

一. 阿里巴巴故障治理业务流程及挑战
1. 面临的挑战
首先双十一极具震撼力的数字给阿里带了了巨大的稳定性挑战。
还不知道AIOps嘛?阿里这么火的智能运维,你不能不知道!
但更大的挑战来自于日常阿里业务的多样和复杂。首先,阿里业务数量巨大,包括2万多名技术工程师,50+ BU,40000+ 应用程序。其次,业务形态差异较大。随着阿里经济体的壮大,出现了许多与传统电商、金融、云计算等不一样的业务形态,例如优酷是文娱,钉钉是社交,还有阿里体育、阿里健康等更多新的业务。业务形态的差异会导致用户行为的多样性。并且阿里国际化业务例如LAZADA、速卖通AE等,也为监控系统带来了许多挑战。最后,业务关联复杂。程序之间需要互相调用,阿里的几万个程序间的调用已经构成了非常复杂的网络,这种牵一发而动全局的情况会给稳定性带来极大的挑战。并且实际情况可能更为复杂,因为除了内部关联,还有外部关联。例如用户可能习惯使用淘宝的搜索框寻找想要购买的商品,若某日搜索功能出现故障,那么便会直接导致淘宝交易量降低。这是因为大部分用户是通过搜索功能进入交易页,出现故障会导致用户找不到其他措施进行交易。应用程序之间的链路复杂和用户行为对业务的影响都会导致业务关联复杂。
还不知道AIOps嘛?阿里这么火的智能运维,你不能不知道!

因此,阿里需要一个对线上故障进行统一治理的机制。首先,业务故障需要统一的发现,然后跨BU故障协同处理,故障的影响面和根因需要统一收口和推送,最后当确定故障后,第一选择是使用统一的机制快速恢复,只有无法快速恢复的故障才会去分析原因。那么如何在这种复杂的业务流程下实现统一故障处理机制呢?

原文链接