深度学习公开课笔记1

lecture1:深度学习与计算机视觉介绍

感知智能:信号来了做一定程度的理解
认知智能:深入复杂的理解
深度学习公开课笔记1speech (震动)和 Vision(光)都是物理世界存在的自然信号;而NLP(文字)和AGI的输入信号都是人为定义的,因此比较难做。
深度学习公开课笔记1真正对这张图片的信息不仅仅是知道图片中的物体和位置,还需要知道一些深层次的信息,有个人再称体重,奥巴马在讨论,其他人在笑这一行为,而做到这个程度的理解需要知识的储备。

计算机视觉的核心问题:
深度学习公开课笔记1分类:对整张图判断类别
检测:对照片中的每个物体做分类和定位
分割:像素级分类
序列:输入是视频(图像序列),如何利用帧之间的相关性建模

计算机视觉的开始居然是看图说话!!!
深度学习公开课笔记1如何表示物体是图像理解的核心问题

1.Part Representation

深度学习公开课笔记1目前的人脸检测仍在使用这一思想,比如确定人的眼睛鼻子和嘴的位置就是在用part来描述人脸。

2.Learning-based Representation
深度学习公开课笔记1Haar-like特征级联实现的人脸检测,特征间的堆叠方式是学习获得的,但是特征都是人为定义的,过于局限。

3.Feature-based Representation:SIFT/HOG

深度学习公开课笔记112年之前图片分类范式
深度学习公开课笔记1

  1. 输入图片
  2. 抽取局部特征(人工设计)
  3. 特征量化
  4. 通过pool方法特征整合
  5. SVM分类

Deep Convolutional Neural Networks出现

深度学习公开课笔记1

发展历史

1.感知机
被抨击不能解决异或问题
深度学习公开课笔记1
2.MLP
可以解决异或问题,在一定条件下可以逼近任何函数

深度学习公开课笔记1A visual proof: http://neuralnetworksanddeeplearning.com/chap4.html

深度学习公开课笔记1深度学习公开课笔记12012年ImageNet一举成名
深度学习公开课笔记1深度学习公开课笔记1VGG和GoogleNet停留下20多层的原因:层数太深,网络不好优化。
深度学习公开课笔记1Resnet引入残差的初衷

如果将网络对图片的操作视为一种变化的话,层数越深,则每一层的变化就很小,学习相邻两层的残差(变化量)更容易。

深度学习公开课笔记1ResNet work的原因:

  1. “shallow-to-deep”dynamics in trainning
    Early stage -train shallow networks
    Later stage - train deep networks
  2. 解决了网络太深的梯度消失问题,使网络优化更容易