最近在跟着吴恩达老师和周莫烦老师的机器学习课程学习，
越往后学习越感觉基本知识的重要性
所以我自己恶补了一些基本的概念
这里从为什么做深度学习开始
一直谈到为什么梯度下降
一个学习笔记
供复习，学习，交流
本文中所有例子来源于吴恩达老师的课程和周莫烦老师的课程

1.深度学习之数据

预先给定数据集（training data），数据可能代表了很多含义，包含了所描述对象的很多特征，在这里抽象成如下的笛卡尔序列：机器学习课程学习--梯度下降GradientDscent的理解

2.建模与拟合

这就是深度学习的原因：为了达成某个目标，对机器进行训练，成长为一个独立的个体，完成目标

对于一组整合了物体各种属性的数据，我们先用标准答案，也就是training data进行喂养(feed)，让他知道对应取值机器学习课程学习--梯度下降GradientDscent的理解下的标准的。

这就是类似于人类平时的学习行为：

学习的好坏，和每个人的天赋，做习题的多少等很多因素有关系。

类比到机器里面去，就是学习（拟合）过程中，构建的参数（hyperparameters）的准确性（对应一个人的天赋），和总共训练的数据的多少（对应习题的多少），这两个是机器进行学习过程中最为主要的影响因素。

学习完毕之后还有测验，这时候就用到测试集（testing data），测试集有答案，但是不告诉机器，机器会计算出一个预测值（根据周莫烦老师的记法，称为为prediction），这里根据吴恩达老师的记法记为机器学习课程学习--梯度下降GradientDscent的理解

由原始的y和机器学习之后的机器学习课程学习--梯度下降GradientDscent的理解可以构建误差，这里有两个记法：
(1)对于单个训练样本误差函数称为loss
(2)对于所有的n个数据误差函数称为cost
具体函数的说明放到后面

如图，蓝色部分的散点就是所有机器学习课程学习--梯度下降GradientDscent的理解的散点图，红色的曲线是机器进行学习，不断校验，迭代，改变参数得到的拟合曲线，这里是引用周莫烦老师的例子

3.构建误差函数

误差函数用于对学习的好坏做出评价

需要设置可调控参数（自己的理解，官方名字hyperparameters）。方便后来的迭代和逼近最优化值

构建误差函数这种行为，
放到人类学习过程就是随堂小测验的分数评估你这节课学得怎么样，
也就是对于当前的样本数据机器学习课程学习--梯度下降GradientDscent的理解的学习程度

通过同样的机器学习课程学习--梯度下降GradientDscent的理解，预测值肯定不会精确的得到

于是，我们构建了误差函数，
这里学习的不够深入，暂时只阐述logistic regression

这里做一下说明，为什么叫回归，因为我们一开始只给指定的参数一个初值，这个初值不一定准确，构建出来的拟合曲线是非常不准确的，如图所示：

机器学习课程学习--梯度下降GradientDscent的理解

红色是正弦曲线，蓝色是初始的拟合曲线，
通过最初的设置的参数的值，可以看出拟合结果非常差

所以我们需要在不断的迭代过程中，反向传播这个参数，使用梯度下降，把这个参数回馈，然后优化。这些概念我都会在后面解释。先来看看不断迭代优化之后的拟合曲线：

机器学习课程学习--梯度下降GradientDscent的理解

可以看到在迭代次数很高之后，误差已经非常小了！

误差函数

在我们给定一些特征机器学习课程学习--梯度下降GradientDscent的理解的情况下，要让机器给出预测值，我们就需要具体深入探讨一些数学的东西。

为了预测机器学习课程学习--梯度下降GradientDscent的理解的值，必须建立关于预设的参数和自变量的预测函数，跟着前人的步子，站在巨人的肩膀上，prediction ，也就是，定义为：

其中机器学习课程学习--梯度下降GradientDscent的理解是总结出来的具有一定满足人们需求的函数,典型的函数有ReLU，sigmoid，tanh等等。后续的文章中可能会做具体解释，此处，顺着吴恩达老师的思路，先学习logistic regression，这里用到的机器学习课程学习--梯度下降GradientDscent的理解函数是sigmoid函数，其表达式为：

顺着吴恩达老师的教学思路，最容易想到的误差函数：
机器学习课程学习--梯度下降GradientDscent的理解

尽管看着不错，也符合了我们的要求，但是误差函数的定义是用于回馈我们设置的参数的，这其中最常用的方法就是梯度下降（Gradient Dscent），后面我们会重点讲述。上述定义的误差函数不是严格的凸函数（convex），沿着导数变化的方向不一定能找到最优化的解。于是，我们使用的误差函数被定义为如下这样，对原因感兴趣的同学可以继续深入学习一下。
单个训练样本的误差loss：机器学习课程学习--梯度下降GradientDscent的理解