百面深度学习 | 第二期:长短期记忆网络
“百面深度学习”系列连载 第二期
长短期记忆网络
引言
众所周知,循环神经网络面临着长期依赖问题,即:随着网络层数加深或输入序列长度变长,无法学习利用到先前的信息。为了解决这一问题,于 1997 年由 Sepp Hochreiter 等人提出了长短期记忆网络(Long Short Term Memory Network, LSTM)[1]。LSTM 不仅能够敏感的应对短期输入信息,还能够对有价值的信息进行长期存储,以提升网络的学习能力。LSTM 凭借着惊人的长短期记忆能力,成为当前最流行的网络结构,在语音识别、语言翻译、图片描述等诸多领域中被成功应用。
问题
LSTM是如何实现长短期记忆功能的?
分析与解答
Figure 1: (a)普通循环神经网络
(b)长短期记忆网络
Figure 2: LSTM 门控单元示意图
[1] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural computation, MIT Press, 1997, 9(8): 1735–1780.
[2] GREFF K, SRIVASTAVA R K, KOUTNÍK J, 等. LSTM: A search space odyssey[J]. IEEE transactions on neural networks and learning systems, IEEE, 2017, 28(10): 2222–2232.
下期预告
【图神经网络的基本结构及演变过程】
引言
2019年伊始,一篇年度十大科技展望吸引了广泛的关注,其中一个趋势与本章的主题相关:“超大规模图神经网络系统将赋予机器常识”。而这已经不是图神经网络第一次被放到深度学习技术的头条位置了。事实上,图神经网络并不是近一年新诞生的概念和技术。早在2005年这一概念即被提出。随后,计算机科学领域、理论物理复杂网络领域的研究者在图(Graph)的空间域(Spatial Domain)和频谱域(Spectural Domain)上分别提出了不同形式的图神经网络,并最终在2017年实现了空间域模型和频谱域模型的融合。自此,深度学习技术和图神经网络迎来了广泛关注。图神经网络的核心在于如何类比CNN在网格状数据上的卷积操作,而定义图上的卷积操作?在本讲中,我们将从图神经网络的基本结构出发,逐步认识GNN的独特之处。
问题
图谱(Graph Spectrum)是什么?图傅立叶变换是什么?频谱域的图卷积网络是什么?
你终于翻到了彩蛋环节!
为了提高各位同事的姿势水平,丁老师在公司开了一门有关概率统计的课程。同组一位doctor同事问丁老师听懂这门课程需要哪些基础知识。丁老师和蔼地表示,只需要一些简单的基础的概率模型知识,比如Pólya urn model,Riemann–Stieltjes integral,martingale,Doob's martingale convergence theorems。对了,这位提问的同事是清华本科毕业后花了4年拿到的博士学位。
丁老师二三事
涨姿势,学本领
关注Hulu公众号