神经网络与机器学习（第3版）阅读笔记{第1章}

前言（）：
{
　　个人感觉翻译版翻译的有些生硬，现在看回了原版《Neural Networks and Learning Machines (3rd Edition)，Simon kaykin》，遇到困难时再参考翻译版。
　　
　　第一章主要有两个内容，一个是Rosenblatt感知器，另一个是正态环境下的Bayes分类器。
}

正文（）：
{
　　线性可分（）：
　　{
　　　　两类向量线性可分是指存在一个超平面（如果这两类向量是3维的，那么就是平面，2维的话就是一条值线）可以将这两类完全分开。
　　　　
　　　　比如说两类二维向量，类型为男和女，二维分别为身高和头发平均长度。虽然身高和头发平均长度与男女有关系，但无法直接只靠设置身高和头发平均长度的阈值就把它们分开。这种情况就叫线性不可分。
　　}
　　Rosenblatt感知器（初步了解）：
　　{
　　　　Rosenblatt感知器是只有一个节点的神经网络（或就是个节点不是网络），即是输入节点又是输出节点，其**函是Heaviside阈值函数（或是别的，书上给的是这个）。
　　　　学习算法（）：
　　　　{
　　　　　　每输入Bs个样本向量之后进行一次权值更新，如下：
　　　　　　神经网络与机器学习（第3版）阅读笔记{第1章}
　　　　　　其中w(n)是第n次（本次）权值更新后的权值向量；M是本次Bs个样本向量中被错误分类的样本向量集合；η(n)是第n次权值更新的学习率；x(i)是M中被错误分类的样本向量；当w(n-1)·x(i)>0时d(i)取-1，否则取1。
　　　　　　这里的Bs是我自己加的，按照书上描述的话Bs就等于总样本数。
　　　　}
　　　　收敛性（）：
　　　　{
　　　　　　书中还证明了只要向量线性可分，在一段时间的训练后，Rosenblatt感知器的权值向量就不会再改变，而不是永远地更改下去。
　　　　　　
　　　　}
　　}
　　Bayes分类器（）：
　　{
　　　　Bayes定理的相关知识（初步了解）：
　　　　{
　　　　　　我去图书馆看了一本杨永愉和*强编的《概率论与数理统计》。
　　　　　　目前我理解的是它的思想是把所有未知的量都看作随机量，并且结合先验知识与现有数据。打个质检的比方，一批产品中某产品的质量优秀概率为P(θ)，其强度优秀概率为P(x)。强度优秀当然和质量优秀有关系，或者说一方是另一方的参数。本次的强度优秀概率P(x)先被测出来了，我想要估算在强度优秀的情况下，本次产品质量的优秀概率P(θ|x) ，如下：
　　　　　　神经网络与机器学习（第3版）阅读笔记{第1章}
　　　　　　在进行质检之前，本次的P(θ)是未知的，有人可能会想“可以根据以往猜个大概。”用先前的经验去猜，得到的概率为先验概率，算是比较容易得到，就用它作为P(θ)。之后代入质量优秀情况下的强度优秀概率P(x|θ)，便可估算出本次产品质量的合格概率P(θ|x)。
　　　　　　
　　　　　　我说的例子可能有点不准确，可以去看百度的吸毒者检测的例子https://baike.baidu.com/item/%E8%B4%9D%E5%8F%B6%E6%96%AF%E5%AE%9A%E7%90%86/1185949?fr=aladdin
　　　　}
　　　　Rosenblatt感知器可以对线性可分的样本进行分类，但如果样本线性不可分，即使得到一个线性的决策边界D也无法保证分类正确，这时候Bayes分类器就派上用场了。
　　　　Bayes分类器追求分类的平均风险最小，平均风险R的公式为：
　　　　神经网络与机器学习（第3版）阅读笔记{第1章}
　　　　其中，Ci,j代表j类的样本被分到i类的损失，Pi,j代表j类的样本被分到i类的概率，m为类别数。
　　　　Pi,j就类似于上述百度的例子一样，我想要求某个第一类的样本被决策边界D分到第一类的概率P1,1，那么就是某个样本是第一类的概率p1乘以第一类的样本被决策边界D分到第一类的概率p(1|1)，即：
　　　　神经网络与机器学习（第3版）阅读笔记{第1章} 　　　　　
　　}
　　习题（1.1-1.5）：
　　{
　　　　先把习题放一下（出自《Neural Networks and Learning Machines (3rd Edition)》，Simon kaykin）：
　　　　
　　　　1.1：
　　　　{
　　　　　　当正确分类时，式1.22中的[d(x)-y(x)]为0，即权值不变，和式1.5一样；
　　　　　　当1类的样本被分到2类时，[d(x)-y(x)]为2，即式1.22中的权值率为式1.5中的两倍，其他相等；
　　　　　　还有一种情况也如上。
　　　　}
　　　　1.2：
　　　　{
　　　　　　由于tanh(0)=0且tanh(v/2)单调递增，所以当v>0时，tanh(v/2)>0，当v<=0时，tanh(v/2)<=0，所以对于Rosenblatt感知器，两个**函数效果一样。
　　　　}
　　　　1.3：
　　　　{
　　　　　　（a）中每种的输入样本线性可分，例如and：
　　　　　　神经网络与机器学习（第3版）阅读笔记{第1章}
　　　　　　其中x代表0类，+代表1类。
　　　　　　（b）中的输入样本线性不可分。
　　　　}
　　　　1.4：
　　　　{
　　　　　　直接按照书上的公式，设决策边界为y=wx+b，其中：
　　　　　　神经网络与机器学习（第3版）阅读笔记{第1章}
　　　　　　代入解得y=-20x。
　　　　}
　　　　1.5：
　　　　{
　　　　　　如上：
　　　　　　
　　　　}
　　}
　　计算机实验（）：
　　{
　　　　这次就把习题1.6的实验给做了。
　　　　进行如下两类样本的分类（出自《Neural Networks and Learning Machines (3rd Edition)》，Simon kaykin）：
　　　　神经网络与机器学习（第3版）阅读笔记{第1章}
　　　　图中参数如下：
　　　　w=6；
　　　　r=10；
　　　　d=0。
　　　　η(1)=0.1并且线性衰减至0.00001。
　　　　训练样本1000份，测试样本2000份，其都均匀分布在RegionA与RegionB。　
　　　　训练样本使用50次（我不确定是不是β这个参数？因为书中实验也只是给到50次的数据。书上说的β说实话我没看懂，按照上面的公式β不应该是256吗？{问题1}）。
　　　　　　
　　　　具体实现我放到了Python学习笔记中。　
　　}
}

结语（）：
{
　　由于没有足够的习题，只看书难免会有理解错误。如果有错误，希望你能给点指点，我就先谢谢了。
}

神经网络与机器学习（第3版）阅读笔记{第1章}

相关推荐