记Flink Metrics时断时续问题排查

1. 背景

用prometheus+pushgateway+grafana监控体系对flink的各项metrics进行监控,出现如下图所示状况:
记Flink Metrics时断时续问题排查
可以发现,指标每过一些时间就会消失,然后又出现。

2. 问题分析

2.1 实验设计

存在三种可能,1:prometheus有bug导致拉不到数据;2:pushgateway有bug导致接收不到flink的数据;3:flink本身有bug,隔一段时间就不发数据。根据猜测,设计了如下排查方法。
第一步,在flink-conf.yaml中配置JMXReporter+PrometheusPushGatewayReporter,如果JMXReporter的数据也会中断,则是flink本身的问题;如果JMXR