【神经网络】自适应线性单元——Adaline
自适应线性单元–Adaptive Linear Units–Adaline
模型结构
- 在M-P模型的基础上
- 依然是二值输出,可以取或
- 依然是期望输出(不是二值,是任意值)
- 区别:使线性部分(任意值)来逼近理想输出
- 学习算法:LMS,利用的差别,使,来调整权重,使得线性输出,从而使得逼近理想的二值函数
最小均方误差算法(The Least Mean Squared Error Algorithm,LMS)
-
算法的存在性和收敛性
-
设理想权值为
则误差为:,是关于的线性函数
定义误差平方的数学期望为选取合适的,使得取得最小值
第一项为理想输出的数学期望,为常数,不关心;
第二项中,为的互相关矢量
第三项中,为的自相关矩阵
求的最小值,对其求导:
令
带入得
表面上看,如果知道了,就能够求出
好看不好用
问题:
- 在实际应用中,互相关矢量和自相关矩阵不知道
- 两个矩阵维数太高,不好估计
- 在这里面还需要求,大矩阵求逆很困难
- 只对线性模型成立,对非线性模型不成立
在实际应用中,用迭代的方式来解决。
梯度下降算法(Gradient Descent Algorithm)
-
目标函数:
-
目标函数梯度:
-
为了调整使得,需要使KaTeX parse error: Got function '\min' with no arguments as subscript at position 10: E\rarr E_\̲m̲i̲n̲
-
权值调整思路:梯度下降法
是关于的二次函数,存在一个最低点使得得到最小值KaTeX parse error: Got function '\min' with no arguments as subscript at position 3: E_\̲m̲i̲n̲,通过求的梯度,按照梯度增加的相反方向调整权值,就能使误差能量朝下降的方向发展。
-
梯度下降法(假设已知)
-
初始化:
较小的数,
-
使用梯度下降法更新权重
为学习率,
-
循环:直到收敛(判断误差能量是否足够小)
-
-
敛散性分析(通过分析可以得到学习率应该怎么取)
-
误差能量的梯度为,通过迭代使得
-
证明过程:
定义
则上式可写为:
接下来只需要证明
由于为自相关矩阵,是对称矩阵,根据其性质可以作特征值分解,即存在一个可逆矩阵,使得
,其中为对角阵,对角元素为的特征值。
为对角阵,两边同时左乘
令,则
为对角阵,如果要对角阵趋近于零,要看对角矩阵中各个元素的k次方是否趋近于零
即要使
则,在这里,唯一的变量是,的条件为
要对所有的特征值都满足
实际情况中特征值并不好求,所以只能估算
-
LMS的随机逼近算法(Stochastic Approximation Algorithm of LMS)
-
-
-
期望本身还是没有办法求,但如果有大量的样本,可以求出大量的误差,可以用样本期望来代替
-
用一个样本来逼近:
-
LMS算法:
-
初始化:为很小的随机数,
-
使用随机LMS来更新权值
其中为学习率,
-
迭代知道收敛:
-
-
对该算法进行分析可得到结论,算法收敛的条件是:
通常将该算法就成为LMS算法。
最速下降法(The Steepest Descent Algorithm)
-
与随即逼近算法的区别为,不用单个样本的结果代替数学期望,而是使用N个样本来计算期望:
-
这样使得梯度下降更快
-
有改进,但是计算量有增加
Madaline(Multiple Adalines)
- 多个线性单元构成的系统
应用实例
-
自适应滤波器
-
时间序列预测(天气预报)
-
给定事时间序列
利用来预测
求:
使得
从而通过预测
-
-
陷波滤波器
-
信道均衡
手机信号源为,发送出来后通过信道得到,信道中还有信号干扰,最后接收到的信号为,设计一个自适应信道均衡器,使输出逼近。
思路:
用自适应滤波来实现。
在训练阶段使用固定信号来训练滤波器,即训练阶段知道能收集到输出,就可以进行训练。