19IJCAI Multi-Group Encoder-Decoder Networks to Fuse Heterogeneous Data for Next-Day Air Quality Pre
本文提出multi-group Encoder-Decoder networks (MGED-Net) 模型融合多种输入特征,解决预测一天后预测给定站点,给定污染物种类(PM2.5)的污染程度的问题。
难点:时空数据都存在,面临异构数据融合的问题;需要进行较长时间(一天)的预测。针对这些难点,本文提出了一个多组数据的Encoder-Decoder模型,主要贡献有三点。
- 将空间网格的天气数据(包括历史与未来的)通过卷积核(根据先验得出的)变换成观测站附近的天气数据。
- 按照皮尔斯相关系数进行特征分组。
- 利用组间互相关进行encoder后的特征融合。
感觉(2)(3)步共同构成了类似集成学习的一个算法。
用到的数据类型:用到k个空气污染物种类,历史和预测的天气数据都用。还用到地理环境(道路信息和海拔数据)、时间戳信息。
总体解决方案:作者主要从数据的角度入手,利用经典的Encoder-Decoder网络模型,加上提出的三点创新性的数据融合算法,来解决此预测问题。下面是本文提出的网络架构图:
本文创新点
特征表示
此方法在文中仅仅针对天气数据。天气特征是网格化的,而我们针对的是站点的空气质量预测。所以要将网格化的数据转换为与某一站点有关的数据,采用了三种方法结合:
- 选取站点所在的网格的天气数据。
- 取周围k×k网格天气数据的平均。
- 用各种代表天气状态(比如风向)的卷积核卷积k×k的网格天气数据。
特征分组
本文提到了3种不同的分组方法:
- 每个特征一组
- 每个领域的特征一组。(天气特征一组,空气质量特征一组)
- 相关性分组
相关性分组是重点。本文的分组思想是最大化类内相关性并且最小化类间相关性。用到了皮尔逊相关系数来表示相关性。采用枚举把特征分为2,3,4个组,来找出符合最大化类内相关性和最小化类间相关性的分组方法。
融合架构
- 特征融合(在encoder之前)
- encoder之后融合(在网络结构图中fusion位置)
- encoder之后与相关性结合的融合(在网络结构图中fusion位置)
实验结果对比
- 特征表示的三种方案对比
- 特征分组三种方案对比
- 三种融合架构的对比
- 和其他模型的对比
由这些对比论证了模型的合理性。