Multi-task Learning Method for Hierarchical Time Series Forecasting

motivation
主要贡献
形式定义
两个模型

MHFM（multi-task hierarchical forecasting model）
DMHFM（dirty multi-task hierarchical forecasting model）

实验

Yang M , Hu Q , Wang Y . Multi-task Learning Method for Hierarchical Time Series Forecasting[M]// Artificial Neural Networks and Machine Learning – ICANN 2019: Text and Time Series. 2019.

这篇文章基于多任务学习，提出了一种新的集成层次预测的模型。

首先解释一下什么是层次时间序列：
Multi-task Learning Method for Hierarchical Time Series Forecasting
下图更为直观：

motivation

Multi-task Learning Method for Hierarchical Time Series Forecasting
一般而言，层次时间序列预测的实现方法是“两步方法”：首先独立预测所有的时间序列，然后对结果进行协调，满足聚合一致性。这种方法的问题：1.高的计算复杂度（因为对每一个单独预测的时间序列都需要去进行拟合），2.无法确保所有时间序列取得最佳的预测结果。
利用多任务学习的优点，构建了一个集成模型：结合了底层序列的特征 and 层级结构。
该模型特点：1.同时输出所有时间序列的预测，并进行一致汇总；2.利用时间序列之间的相关性；3.通过全局损失函数，实现预测结果总体上最佳

主要贡献

Multi-task Learning Method for Hierarchical Time Series Forecasting

基于多任务学习，提出了一种新型集成层次预测模型，预测结果满足聚集一致性并且总体上是最佳的。
通过在模型的两部分上施加不同的正则化来学习稀疏模型。
在数值模拟和真实数据上进行实验，都取得了更好的整体性能。

形式定义

Multi-task Learning Method for Hierarchical Time Series Forecasting
$y_t：n$ 维行向量，t时刻所有观测到的时间序列， $b_t：m$ 维行向量，所有观测到的底层的时间序列， $a_t：l$ 维行向量，所有整合的时间序列。
可以得出关系如下：

根据图1的结构可以得到S如下：
Multi-task Learning Method for Hierarchical Time Series Forecasting
通过这个矩阵相乘关系可以同时获得所有时间序列。

两个模型

MHFM（multi-task hierarchical forecasting model）

Multi-task Learning Method for Hierarchical Time Series Forecasting

将底层的所有时间系列的特征提取到整个输入特征空间中；
将层次结构整合到模型中；
通过优化全局目标函数，实现同时预测所有的时间序列并实现整体预测最优。
公式如下：
第 $i$ 个时间序列的预测模型：

解析解：

多任务分层预测模型：
Multi-task Learning Method for Hierarchical Time Series Forecasting
目标函数：

求解W：

DMHFM（dirty multi-task hierarchical forecasting model）

随着层次中的时间序列数量的增加，很容易陷入维度爆炸，所以学习数据的基础结构（如：稀疏性、低秩结构等）有助于提高模型的准确性并使其更可靠，所以提出了DMHFM：
Multi-task Learning Method for Hierarchical Time Series Forecasting

组稀疏性分量：
采用 $l_{1,\infty}-norm$ 正则化实现联合特征选择（P）
元素级稀疏性分量：
采用 $l_1-norm$ 正则化保持每个序列的唯一性（Q）

公式如下： Multi-task Learning Method for Hierarchical Time Series Forecasting
组稀疏性分量： $||P||_{1,\infty}=\sum_{i}||P_i||_\infty=\max_j|P_{0,j}|+\max_j|P_{1,j}|+...+\max_j|P_{i,j}|$ 每一行元素中绝对值最大的和。
元素级稀疏性分量： $||Q||_{1,1}=\sum_{i}||Q_i||_1=|Q_{0,0}|+|Q_{0,1}|+...+|Q_{0,j}|+...++|Q_{i,1}|+...+|Q_{i,j}|$ 所有元素的绝对值之和。

采用accelerated gradient methods（AGM）方法进行优化。

实验

评价指标：ARMSE
Multi-task Learning Method for Hierarchical Time Series Forecasting
进行了两个实验：1.数值模拟，2.旅游预测实验
都证明了提出的方法的有效性。

更多细节大家可以阅读原文~
Multi-task Learning Method for Hierarchical Time Series Forecasting

Multi-task Learning Method for Hierarchical Time Series Forecasting

Multi-task Learning Method for Hierarchical Time Series Forecasting

motivation

主要贡献

形式定义

两个模型

MHFM（multi-task hierarchical forecasting model）

DMHFM（dirty multi-task hierarchical forecasting model）

实验

相关推荐