一文搞懂证券行业日志实时聚类分析
01客户现状及痛点
作为中国首批综合类证券公司,该券商客户主要从事投资银行、证券经纪和基金管理等金融业务,在国内拥有诸多分公司/机构及证券营业部。随着企业业务的快速发展,券商客户信息系统日渐庞大和复杂,IT系统规模不断扩大,对应的数据中心机房、服务器、数据库和中间件等多种独立日志监控,越来越难以满足日益复杂的系统架构、海量数据关联分析和故障定位等需求。
为了强化系统风险和故障的早预警、早定位、和早处置,加强运维大数据分析和智能告警,券商客户建设了一套日志集中采集和分析系统,能够对现有日志数据提取整合,对告警和性能数据统一分析处理,在监控终端也实现了多种形式的告警及性能的统一展示,但是在日志运维管理方面,还是面临许多挑战:
- 运维数据分散。业务场景繁多,日志类型多样(业务日志、性能日志、SYSLOG和CMDB等),数据机房多且分布在全国各地。数据内部的联系虽有配置管理库完成一部分,但是由于信息孤岛的存在和非实时性,内在的运维价值并未被完全挖掘出来。
- 排障耗时耗力。在故障定位方面多依赖现场运维经验,实际故障发生时常为多指标互相影响而触发告警,对故障原因的分析和定位不准确。有时涉及到多部门和多地域协调,导致业务可用性下降,影响业务运行。
- 分析手段复杂。目前各种日志分析都只是从某一产品或系统的视角出发,从单一维度对数据进行解析。此外,数据分析手段比较简单,大多以阈值告警或数值方式体现;现有支持业务运行的系统和中间件专业性较强,故障排除对各方面专业技术依赖严重。
- 数据增长迅速。随着业务种类增加,相关运维数据及日志也高速增长,每天日增700G数据,导致监控系统处理运维数据时效性下降,发现问题时间滞后,解决问题非常被动。
02擎创解决方案
针对客户以上痛点难点,擎创通过夏洛克AIOps智慧运营平台尤其是日志精析中心,为该券商客户建立了统一的日志大数据运维平台:
- 集中收集业务日志、中间件日志、数据库日志以及性能指标在内的多维数据信息,并将这些信息集中存储在大数据平台中,便于在平台中对这些数据进行统一查询、统一分析和统一展示等。
- 在流引擎中配置告警规则。流引擎中的告警规则可以以近实时状态来监控系统的健康状况,有效提高告警规则的时效性和减少排障时间。
- 充分利用不同运维数据间的关联信息。当发生运维故障时,能够以告警为切入点,关联不同的运维数据,直观展示故障发生时不同运维数据的健康状况,做到快速定位故障根因。
- 使用智能基线算法替代传统的静态阈值,算法能够根据历史监控数据动态调整不同时刻的告警阈值,能够有效减少无效告警,提升告警质量。
03解决方案价值
通过日志大数据运维平台,目前能够采集支撑业务场景达到32个,采集节点数量达到1500台,日均存储日志1.5T左右,数据处理峰值达1亿/分钟。
日志大数据运维平台有效解决了现在面临的运维挑战:运维数据分散、排障耗时耗力、分析手段复杂和数据增长迅速,具体体现在以下四个方面:
- 海量数据汇聚。通过高效、实时、多维度采集能力,聚合了每日700多G数据量,并融合汇聚了现有的所有系统的日志运维数据。
- 故障快速定位。结合运维大数据,从多个维度分析问题,更加高效精准定位故障,提高排障效率。
- 统一运维界面。提供集中管理的架构和灵活的扩展能力,实现统一查询处理故障相关运维数据。通过排障助手,实现排障流程化。
- 智能场景探索。在支持采集处理增长迅速的运维数据后,平台提供扩展智能算法能力和接口,并且加入场景化的支持,基于算法引擎,将来可以实现主动管理和智能预测。
04客户评价及期望
日志大数据运维平台上线之后,融合汇聚了支撑业务运行的各种日志运维数据,并将IT基础架构数据与业务数据进行有机整合,真正实现了一站式大数据运维。券商客户负责人表示:“部署了日志大数据运维平台之后,我们业务系统的运行效率得到了大幅提升,运维成本降低的同时运维效率也有显著提高。
目前,日志平台已经实现了全量采集指标数据,近实时故障处理实时处理,且能够充分利用运维数据信息的潜在价值,这让我们可以从容应对海量监控数据和高拓展架构给业务系统带来的巨大挑战。”