基于空间向量的余弦相似度算法在具体项目中的实施落地
Skolang告警转发中机器学习的实践
1.业务需求分析
1.背景
我司SRM产品业务逻辑迭代深,系统依赖服务广、组件众多。因而,在系统出现故障时(bug触发、依赖服务超时等),错误日志的量级会急剧增加,错误日志内容会存在相互掩埋、影响的问题,开发人员面对爆发式的错误一时难以理清逻辑,无法第一时间解决核心问题。为此,我们需要构建辅助开发人员查错的工具。
SRM日志具有info、debug、error三种级别,我们先关注error级别的日志。若在报警流出现时,通过处理程序,将报警聚类,整理出一段时间内的报警摘要,那么运维人员就可以在摘要信息的辅助下,先对当前故障有一个大致方向的判断,再结合技术知识和业务知识即可定位故障的根本原因。
根据以上考虑,我们需要做以下工作:
- 选定聚类算法,理清算法的基本原理,总结出针对error报警日志聚类的可以实施的方案;
- 选用一段时间流内error日志(生产环境),对算法、处理流程进行验证,总结不足与优化、进步方案。
2.技术选型
我们会什么,做过什么,可能做到什么水平
3.具体的设计细节与落地情况
4.总结与展望
5.踩坑记录
留个坑,这周末补上