记Flink Metrics时断时续问题排查
1. 背景
用prometheus+pushgateway+grafana监控体系对flink的各项metrics进行监控,出现如下图所示状况:
可以发现,指标每过一些时间就会消失,然后又出现。
2. 问题分析
2.1 实验设计
存在三种可能,1:prometheus有bug导致拉不到数据;2:pushgateway有bug导致接收不到flink的数据;3:flink本身有bug,隔一段时间就不发数据。根据猜测,设计了如下排查方法。
第一步,在flink-conf.yaml
中配置JMXReporter+PrometheusPushGatewayReporter,如果JMXReporter的数据也会中断,则是flink本身的问题;如果JMXR