气象大数据需求
1 背景
国家气象信息中心CIMISS系统于2008年建设,随着数据量和需求越来越多,已不能满足业务需求,迫切需要气象大数据管理平台来满足新一代海量气象数据存储管理需求。
2 CIMISS系统理解
2.1 原有CIMISS
2.2 升级版CIMISS2.0
2.3 存储和查询需要做的事情
需要接入CIMISS的数据:利用前期数据处理标准化成果(数据资源标6大分体系,231项标准条目),构建新的数据处理流程。与各数据接入单位的数据交换系统对接,获取国内外地面和高空观测数据。入库数据如下:
1> 历史数据迁移入库
2> 站点数据处理入库
3> 雷达、卫星数据处理入库
4> 数值预报和分析处理入库
5> 新汇交数据处理入库
需要构建气象大数据存储管理系统:采用分布式存储技术对关系型数据、KV对象数据、文件数据进行存储,以满足气象中心,卫星气象中心、气候中心的业务需要,支持统一存储管理和服务。
需要统一数据服务接口:作为存储管理系统的出口,实现对气象中心实时业务需求的亚秒级响应,遵循MUSIC标准,支持服务管理和服务发布。服务包括站点数据检索接口,站点资料统计接口,格点资料解析接口,原始数据和处理后产品数据的写入的接口等。接口对原有接口兼容,能适配多种数据类型,性能好,扩展性好。
2.4 数据情况
气象卫星平台:总量3PB,大约1亿文件, 单个文件大小在10M-500M之间。主要包括风云系列卫星数据和美欧日卫星数据。
雷达数据:包括多普勒天气雷达,激光雷达数据。
其他部委的相关数据:海洋,水文,农业,林业,环境等。
3 适配气象数据
遗留代码的整合,主要是利用已有的气象业务逻辑,便于预处理和格式处理。
3.1 预处理过程
l 数据预处理:唯一性检查、文件过滤、文件识别、解压缩、格式转换、数据解析。
l 解码:卫星/雷达/模式解码。
l 数据质量控制:物理和历史极值检查、内部一致性检查,时间连续性检查,空间一致性检查,静力学检查等
预处理过程可以复用CIMISS已有逻辑,可以在Spark平台分布式并行执行以加速处理过程。
3.2 格式处理
主要的四种格式的处理:
HDF4/5: https://www.hdfgroup.org/downloads/hdf5/source-code/
netCDF3/4: https://github.com/Unidata/thredds(或netcdf-c)
GRIB1/2和BUFR3/4:
https://software.ecmwf.int/wiki/display/ECC/Releases
目前开源环境有一些格式支持,其他内部格式需要复用CIMISS已有逻辑或者业务单位之前的处理逻辑。
3 相关的气象分析系统
CIMISS:http://www.cma.gov.cn/2011xzt/2016zt/20160506/201701/t20170110_385439.html (有国、省、市、县CIMISS业务关系图,未来的CIMISS 2.0架构图)气象数据平台的前台(依托CIMISS):http://data.cma.cn/
MICAPS4:气象局分布式存储和流数据接入平台和预报算法系统,国家气象中心预报系统开放实验室MICAPS开发团队开发 http://www.micaps.cn/MiFun/second2
CIPAS2:算法应用系统,国家气候中心气象灾害风险管理室研发。http://cmdp.ncc-cma.net/cn/index.htm
CIMISS数据被MICAPS4和CIPAS2利用。