浅识监控
监控原因
线上业务
- 稳定运行
时间空间
- 硬件资源位置
- 异常的处理
监控内容
组件信息
- 主机
CPU、内存、磁盘、负载等 - 网卡
流量、Ping 的响应时长以及丢包率等 - 文件
大小、Hash 值 - URL
指定 URL 访问过程中的返回码、下载时长、文件大小等 - 应用程序
端口内存使用率、CPU 使用率、服务状态等 - 数据库
事务、锁、等性能参数 - 硬件
风扇、电压、温度等 - ……
实现方式
数据采集(客户端)
- 工作模式
- 主动(客户端主动上报数据到服务器端)
- 被动(服务器端到客户端采集数据)
- 采集数据协议
- 专用客户端采集
- 公用协议采集(SNMP、SSH、Telnet 等)
- 采集数据协议
代理端
为了解决时间空间上的问题(大规模、跨地域)
数据分析处理(服务器端)
功能
- 监控
- 告警
- 方式
- 邮件
- 短信
- 微信
- 其他接口
- 方式
- 故障处理
分享
- 宗旨
- 珍爱生命,远离折腾。
- 欢迎斧正。
- 导图如下