互联网APP监控即时报警解决最终方案及总结

首先描述下公司APP监控的建构，通过agent采集app的request-metrics，jvm-metrics，第三方（mysql-metrics，http-metrics）等指标信息
通过thrift协议发送到服务端，push到kafka，最终持久化时序数据库druid。
我们alarm系统就是从kafka拉去consumer数据来做流式计算达到即时报警的目的。

request-metric app本身流量指标
- request 每分请求数
- count5xx 每分500错误数
- count5xxRate 500错误率=总500错误数/总请求数
- costTime 平均响应时间=总响应时间/总请求数
http-metric 第三方调用
- request 每分请求数
- count5xx 每分500错误数
- count5xxRate 500错误率=总500错误数/总请求数
- costTime 平均响应时间=总响应时间/总请求数
zbrd-metirc 网关域名的流量指标
- request 每分请求数
- count5xx 每分500错误数
- count5xxRate 500错误率=总500错误数/总请求数
- costTime 平均响应时间=总响应时间/总请求数
gc-metirc 负载指标
- GC次数 gcCount
- GC时间 gcTime
jvm-metirc 负载指标
- 已使用堆内存大小 heapUsed
- CPU使用率 processCpuLoad
- 堆内存使用率 heapUsedRate(新) heapUsed/heap(最大堆内存)
jdbc-metrics 连接池
- activeCount 活跃连接数
- activeCount/pooling_values **数（代表在使用的）与连接pool的数（是变化的）的比例Rate，
sql-metrics client调用sql 第三方调用
- request 每分Sql执行数
- errorCount 每分Sql执行错误数
- errorRate 执行错误率
- costTime 平均执行时间=总响应时间/总请求数
kafka-metrics 集群
- offset-lag (依赖topic group)
- message-in (集群，topic，broker)不做

流式计算的构建采用kafka-stream。
FilterProcessor主要用于根据策略过滤消息。
ReduceProcessor主要根据appId对指标做数据聚合，这里我们又采用异步数据聚合（主要考虑每次都与redis通信，IO消耗时间太大）。先聚合在local，再10s轮询同步到redis。
MatchProcessor主要是聚合数据与策略进行匹配，触发报警。把报警事件推送到kafka来解耦
alarmEvent处理器主要提供消息持久化，email聚合推送，钉钉等各种渠道推送。

1.创建策略界面

互联网APP监控即时报警解决最终方案及总结

2.钉钉报警通知

互联网APP监控即时报警解决最终方案及总结

3.email报警通知

互联网APP监控即时报警解决最终方案及总结