第三讲-损失函数和优化-课时8-优化

大多数情况下，尤其是深度学习中，想要求损失函数最小值处的参数，是无法通过闭式解得到的。需要使用梯度下降。

首先，Random Search是行不通的。

一元函数---导数

多元函数---偏导数---偏导数组成的向量就是梯度（gradient）

----------------------------------------------------------------------------------------------------

若使用有限差分方法计算梯度，如下图。这种方法非常的慢！经常使用这种方法来做梯度检查，用于调试。

第三讲-损失函数和优化-课时8-优化

-------------------------------------------------------------------------------------

实际中，我们使用微积分推导出梯度表达式再计算梯度。

-------------------------------------------------------------------------------------

二分类支持向量机中的标签是-1，+1

hinge loss = max(1-yiSi) Si = wxi+b

对于二分类问题中，只有一个分数Si，w只是向量，b是实数

-------------------------------------------------------------------------------------

多分类支持向量机

http://vision.stanford.edu/teaching/cs231n-demos/linear-classify/ 这个课程链接，可以调试多分类svm

hinge loss Li = Σ max(Sj-Syi+1,0) j ≠ i

这里Si有C个，分别是第i个样本被预测为第c类的分数

W是矩阵，每一行对应一类

b是向量，每一行对应一类

-------------------------------------------------------------------------------------

神经网络兴起之前，人们只能使用线性分类器

使用线性分类器时，不能将图片的像素直接作为输入特征，这样效果很差，因为线性分类器能力有限，数据集线性不可分。

要做特征转换后再输入到线性分类器中去。

-------曾经使用的特征转换方法有颜色直方图，方向梯度直方图，bag of words(从NLP中启蒙得到）