7.deep learning

deep learning

7.deep learning

7.deep learning

7.deep learning

7.deep learning

7.deep learning

7.deep learning

7.deep learning

7.deep learning

7.deep learning

7.deep learning

7.deep learning

这些矩阵运算可以用GPU加速,比CPU快

7.deep learning

softmax怎么理解?没毛病

7.deep learning

就是把一堆实数的值映射到0-1区间,并且使他们的和为1。一般用来估计posterior probability,在多分类任务中有用到。

7.deep learning

7.deep learning

7.deep learning

7.deep learning

如何抽FEATURE变成了如何设计network structure 

7.deep learning

7.deep learning

7.deep learning

7.deep learning

7.deep learning

7.deep learning

7.deep learning

7.deep learning

这些toolkit可以用来算微分,backpropagation

和直线拟合一样,深度学习的训练也有一个目标函数,这个目标函数定义了什么样的参数才算一组“好参数”,不过在机器学习中,一般是采用成本函数(cost function),然后,训练目标就是通过调整每一个权值Wij来使得cost达到最小。cost函数也可以看成是由所有待求权值Wij为自变量的复合函数,而且基本上是非凸的,即含有许多局部最小值。但实际中发现,采用我们常用的梯度下降法就可以有效的求解最小化cost函数的问题。

梯度下降法需要给定一个初始点,并求出该点的梯度向量,然后以负梯度方向为搜索方向,以一定的步长进行搜索,从而确定下一个迭代点,再计算该新的梯度方向,如此重复直到cost收敛。那么如何计算梯度呢?