上云后期2020-05-13

前言

实名制上云分为三阶段,目标是2020-05-20完成上云
1,云上代码开发
2,云下写云上,切流,同时云上写云下
3,内部接口切换,外部接口切换

Content

今天在做一个事,改写云上接口,使其兼容前端
背景:上云时设计数据库,改了部分表,修改了部分实体,所以对Web端的接口的实体也做了修改,这样子接口就不一致了,那我就要将实体转一下,使其兼容。也就是在接口层做兼容。
晚上遇到一个事,首先是第三方接口写入异常,报接口异常5000ms,然后我检查了所有的云下写云上的接口,同样的异常,sunfire日志里全部是失败,耗时5000+,同时推送端也没有数据在推,也就是生产端不产数据了,那么随即定位到问题是云上应用,打开应用日志,发现如下错误:上云后期2020-05-13
oom,Java heap space
上云后期2020-05-13

上云后期2020-05-13
上云后期2020-05-13

上云后期2020-05-13
上云后期2020-05-13
初步结论:7点左右数据量过大,导致异常消费,rockemq批量拉数据然后又退回到mq中,而内存没来的及释放,导致full gc。最终OOM。