神经网络与机器学习(第3版)阅读笔记{第1章}

前言():
{
  个人感觉翻译版翻译的有些生硬,现在看回了原版《Neural Networks and Learning Machines (3rd Edition),Simon kaykin》,遇到困难时再参考翻译版。
  
  第一章主要有两个内容,一个是Rosenblatt感知器,另一个是正态环境下的Bayes分类器。
}

正文():
{
  线性可分():
  {
    两类向量线性可分是指存在一个超平面(如果这两类向量是3维的,那么就是平面,2维的话就是一条值线)可以将这两类完全分开。
    
    比如说两类二维向量,类型为男和女,二维分别为身高和头发平均长度。虽然身高和头发平均长度与男女有关系,但无法直接只靠设置身高和头发平均长度的阈值就把它们分开。这种情况就叫线性不可分。
  }
  Rosenblatt感知器(初步了解):
  {
    Rosenblatt感知器是只有一个节点的神经网络(或就是个节点不是网络),即是输入节点又是输出节点,其**函是Heaviside阈值函数(或是别的,书上给的是这个)。
    学习算法():
    {
      每输入Bs个样本向量之后进行一次权值更新,如下:
      神经网络与机器学习(第3版)阅读笔记{第1章}
      其中w(n)是第n次(本次)权值更新后的权值向量;M是本次Bs个样本向量中被错误分类的样本向量集合;η(n)是第n次权值更新的学习率;x(i)是M中被错误分类的样本向量;当w(n-1)·x(i)>0时d(i)取-1,否则取1。
      这里的Bs是我自己加的,按照书上描述的话Bs就等于总样本数。
    }
    收敛性():
    {
      书中还证明了只要向量线性可分,在一段时间的训练后,Rosenblatt感知器的权值向量就不会再改变,而不是永远地更改下去。
      
    }
  }
  Bayes分类器():
  {
    Bayes定理的相关知识(初步了解):
    {
      我去图书馆看了一本杨永愉和*强编的《概率论与数理统计》。
      目前我理解的是它的思想是把所有未知的量都看作随机量,并且结合先验知识与现有数据。打个质检的比方,一批产品中某产品的质量优秀概率为P(θ),其强度优秀概率为P(x)。强度优秀当然和质量优秀有关系,或者说一方是另一方的参数。本次的强度优秀概率P(x)先被测出来了,我想要估算在强度优秀的情况下,本次产品质量的优秀概率P(θ|x) ,如下:
      神经网络与机器学习(第3版)阅读笔记{第1章}
      在进行质检之前,本次的P(θ)是未知的,有人可能会想“可以根据以往猜个大概。”用先前的经验去猜,得到的概率为先验概率,算是比较容易得到,就用它作为P(θ)。之后代入质量优秀情况下的强度优秀概率P(x|θ),便可估算出本次产品质量的合格概率P(θ|x)。
      
      我说的例子可能有点不准确,可以去看百度的吸毒者检测的例子https://baike.baidu.com/item/%E8%B4%9D%E5%8F%B6%E6%96%AF%E5%AE%9A%E7%90%86/1185949?fr=aladdin
    }
    Rosenblatt感知器可以对线性可分的样本进行分类,但如果样本线性不可分,即使得到一个线性的决策边界D也无法保证分类正确,这时候Bayes分类器就派上用场了。
    Bayes分类器追求分类的平均风险最小,平均风险R的公式为:
    神经网络与机器学习(第3版)阅读笔记{第1章}
    其中,Ci,j代表j类的样本被分到i类的损失,Pi,j代表j类的样本被分到i类的概率,m为类别数。
    Pi,j就类似于上述百度的例子一样,我想要求某个第一类的样本被决策边界D分到第一类的概率P1,1,那么就是某个样本是第一类的概率p1乘以第一类的样本被决策边界D分到第一类的概率p(1|1),即:
    神经网络与机器学习(第3版)阅读笔记{第1章}     
  }
  习题(1.1-1.5):
  {
    先把习题放一下(出自《Neural Networks and Learning Machines (3rd Edition)》,Simon kaykin):
    神经网络与机器学习(第3版)阅读笔记{第1章}
    1.1:
    {
      当正确分类时,式1.22中的[d(x)-y(x)]为0,即权值不变,和式1.5一样;
      当1类的样本被分到2类时,[d(x)-y(x)]为2,即式1.22中的权值率为式1.5中的两倍,其他相等;
      还有一种情况也如上。
    }
    1.2:
    {
      由于tanh(0)=0且tanh(v/2)单调递增,所以当v>0时,tanh(v/2)>0,当v<=0时,tanh(v/2)<=0,所以对于Rosenblatt感知器,两个**函数效果一样。
    }
    1.3:
    {
      (a)中每种的输入样本线性可分,例如and:
       神经网络与机器学习(第3版)阅读笔记{第1章}
       其中x代表0类,+代表1类。
      (b)中的输入样本线性不可分。
    }
    1.4:
    {
      直接按照书上的公式,设决策边界为y=wx+b,其中:
      神经网络与机器学习(第3版)阅读笔记{第1章}
      代入解得y=-20x。
    }
    1.5:
    {
      如上:
      神经网络与机器学习(第3版)阅读笔记{第1章}
    }
  }
  计算机实验():
  {
    这次就把习题1.6的实验给做了。
    进行如下两类样本的分类(出自《Neural Networks and Learning Machines (3rd Edition)》,Simon kaykin):
    神经网络与机器学习(第3版)阅读笔记{第1章}
    图中参数如下:
    w=6;
    r=10;
    d=0。
    η(1)=0.1并且线性衰减至0.00001。
    训练样本1000份,测试样本2000份,其都均匀分布在RegionA与RegionB。 
    训练样本使用50次(我不确定是不是β这个参数?因为书中实验也只是给到50次的数据。书上说的β说实话我没看懂,按照上面的公式β不应该是256吗?{问题1})。
      
    具体实现我放到了Python学习笔记中。 
  }
}

结语():
{
  由于没有足够的习题,只看书难免会有理解错误。如果有错误,希望你能给点指点,我就先谢谢了。
}