论文学习-使用LSTM递归神经网络架构的紧急事件预测

摘要

传统的EV事件（紧急事件预测）方法是时间序列分析技术，包括移动平均和自回归移动平均。在本文中我们使用基于递归神经网络RNN的EV预测结构，尤其是LSTM结构

本文LSTM的主要框架是首先进行空间聚类（根据区域选择聚类），然后进行空间聚类独立或依赖性研究（如果是独立，只需要考虑本区域的数据，如果是依赖，则需要考虑其它区域的数据），最后进行LSTM预测，其中本文中的LSTM可以用于处理EV事件中的二分类和回归问题，最后将得出的模型与传统的时间序列预测技术，常见的机器学习技术进行比较。

论文学习-使用LSTM递归神经网络架构的紧急事件预测

在Background中分为两个部分，第一是前人做的工作，第二是LSTM的简单介绍。

论文学习-使用LSTM递归神经网络架构的紧急事件预测

以前的RNN存在梯度消失爆炸问题，LSTM引用一种特殊结构解决了这个问题。论文学习-使用LSTM递归神经网络架构的紧急事件预测

论文学习-使用LSTM递归神经网络架构的紧急事件预测

在上面的流程途中，第一部分是EV数据的预处理，首先要对数据进行提纯和净化，如果数据不满足当前的系统，要进行重新计算。然后对数据进行空间聚类，时间分割，窗口显示，第一阶段输出的数据是传统的时间序列数据。第一部分的输出经过计算（第二部分中的存储单元决定是否输入，存储，删除，以及作为存储单元的输出）成为第二部分LSTM模型的输入，用数据对LSTM模型进行训练，选出一种最好的模型，用于进行空间的EV事件预测。

在这篇论文中，主要解决两种类型的EV问题，首先是EV二分类问题，即在一个区域的一段时间是否有EV事件的存在，第二种是EV数量的递归问题，即一段时间区域内有多少数量的EV事件发生。

空间聚类：

论文学习-使用LSTM递归神经网络架构的紧急事件预测

空间分类分为三种：分区，分层以及基于密度的。相对于不同的决策方法。K-means PAM DBSCAN ，当选出好的决策方法后，我们需要用DBI或者是SI指数来评估这些算法的性能。

【补充知识】

1.K-means（K均值划分）聚类：简单的说，一般流程如下：先随机选取k个点，将每个点分配给它们，得到最初的k个分类；在每个分类中计算均值，将点重新分配，划归到最近的中心点；重复上述步骤直到点的划归不再改变。下图是K-means方法的示意

2 DBSCAN算法涉及到几个定义
2.1 定义
核心点：这些点在基于密度的簇内部。点的邻域由距离函数和用户指定的距离参数Eps决定。核心点的定义是，如果该点的给定邻域的点的个数超过给定的阈值MinPts，其中MinPts也是一个用户指定的参数。
边界点：边界点不是核心点，但它落在某个核心点的邻域内。
噪声点：噪声点是既非核心点也非边界点的任何点。

2.2 DBSCAN的过程：
DBScan需要二个参数：扫描半径 (eps)和最小包含点数(minPts)。

1）任选一个未被访问(unvisited)的点开始，找出与其距离在eps之内(包括eps)的所有附近点；
2）如果附近点的数量 ≥ minPts，则当前点与其附近点形成一个簇，并且出发点被标记为已访问(visited)。然后递归，以相同的方法处理该簇内所有未被标记为已访问(visited)的点，从而对簇进行扩展；
3）如果附近点的数量 < minPts，则该点暂时被标记作为噪声点；
4）如果簇充分地被扩展，即簇内的所有点被标记为已访问，然后用同样的算法去处理未被访问的点。

3.PAM

PAM（Partition Around Medoids）是K-medoid（K中心点划分）的基础算法，基本流程如下：首先随机选择k个对象作为中心，把每个对象分配给离它最近的中心。然后随机地选择一个非中心对象替换中心对象，计算分配后的距离改进量。聚类的过程就是不断迭代，进行中心对象和非中心对象的反复替换过程，直到目标函数不再有改进为止。非中心点和中心点替换的具体类别如下图分析（用h替换i相对j的开销）。

时间分割：

论文学习-使用LSTM递归神经网络架构的紧急事件预测