论文学习-使用LSTM递归神经网络架构的紧急事件预测
摘要
传统的EV事件(紧急事件预测)方法是时间序列分析技术,包括移动平均和自回归移动平均。在本文中我们使用基于递归神经网络RNN的EV预测结构,尤其是LSTM结构
本文LSTM的主要框架是首先进行空间聚类(根据区域选择聚类),然后进行空间聚类独立或依赖性研究(如果是独立,只需要考虑本区域的数据,如果是依赖,则需要考虑其它区域的数据),最后进行LSTM预测,其中本文中的LSTM可以用于处理EV事件中的二分类和回归问题,最后将得出的模型与传统的时间序列预测技术,常见的机器学习技术进行比较。
在Background中分为两个部分,第一是前人做的工作,第二是LSTM的简单介绍。
以前的RNN存在梯度消失爆炸问题,LSTM引用一种特殊结构解决了这个问题。
在上面的流程途中,第一部分是EV数据的预处理,首先要对数据进行提纯和净化,如果数据不满足当前的系统,要进行重新计算。然后对数据进行空间聚类,时间分割,窗口显示,第一阶段输出的数据是传统的时间序列数据。第一部分的输出经过计算(第二部分中的存储单元决定是否输入,存储,删除,以及作为存储单元的输出)成为第二部分LSTM模型的输入,用数据对LSTM模型进行训练,选出一种最好的模型,用于进行空间的EV事件预测。
在这篇论文中,主要解决两种类型的EV问题,首先是EV二分类问题,即在一个区域的一段时间是否有EV事件的存在,第二种是EV数量的递归问题,即一段时间区域内有多少数量的EV事件发生。
空间聚类:
空间分类分为三种:分区,分层以及基于密度的。相对于不同的决策方法。K-means PAM DBSCAN ,当选出好的决策方法后,我们需要用DBI或者是SI指数来评估这些算法的性能。
【补充知识】
1.K-means(K均值划分)聚类:简单的说,一般流程如下:先随机选取k个点,将每个点分配给它们,得到最初的k个分类;在每个分类中计算均值,将点重新分配,划归到最近的中心点;重复上述步骤直到点的划归不再改变。下图是K-means方法的示意
2.1 定义
核心点:这些点在基于密度的簇内部。点的邻域由距离函数和用户指定的距离参数Eps决定。核心点的定义是,如果该点的给定邻域的点的个数超过给定的阈值MinPts,其中MinPts也是一个用户指定的参数。
边界点:边界点不是核心点,但它落在某个核心点的邻域内。
噪声点:噪声点是既非核心点也非边界点的任何点。
2.2 DBSCAN的过程:
DBScan需要二个参数: 扫描半径 (eps)和最小包含点数(minPts)。
1) 任选一个未被访问(unvisited)的点开始,找出与其距离在eps之内(包括eps)的所有附近点;
2) 如果 附近点的数量 ≥ minPts,则当前点与其附近点形成一个簇,并且出发点被标记为已访问(visited)。 然后递归,以相同的方法处理该簇内所有未被标记为已访问(visited)的点,从而对簇进行扩展;
3) 如果 附近点的数量 < minPts,则该点暂时被标记作为噪声点;
4) 如果簇充分地被扩展,即簇内的所有点被标记为已访问,然后用同样的算法去处理未被访问的点。
时间分割:
根据空间独立/依赖研究,二分类EV和回归EV 的LSTM模型又可以分为以下四类
窗口显示:
当我们结束时间分割以后,要对数据进行窗口显示。如果要预测下一天的EV,我们需要前几天的EV数据,这个前几天的天数称之为“look-back”。这几天的EV数据将会被当作第二部分的输入训练LSTM模型。
EV预测的函数(方法)
从下图中可以综合上述知识,它们的"look-back"均为8,从图中可以看出应该有7个空间聚类。二分类问题的输入数据将所有的非0值置为1.然后经过存储单元的输入,输出,遗忘,高隐藏层运算,最后得到不同的输入图像。