李宏毅机器学习 Machine_Learning_2019_Task1
学习任务:
目录:
一、了解什么是Machine learning
二、中心极限定理、正态分布、最大似然估计
三、Loss Function
四、泰勒展开
五、L2-Norm,L1-Norm,L0-Norm
一、了解什么是Machine learning
机器学习简而言之就是找到一个function,根据输入得到想要的输出。
一种经常引用的英文定义是:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.
机器学习采用两种技术:监督式学习和无监督学习。监督式学习根据已知的输入和输出训练模型,让模型能够预测未来输出;无监督学习从输入数据中找出隐藏模式或内在结构。
二、中心极限定理、正态分布、最大似然估计
Central Limit Theorem 中心极限定理
具体理解:
1、样本的平均值约等于总体的平均值。
2、不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。
normal distribution 正态分布
若随机变量X服从一个均值为μ,σ的平方的正态分布,其中μ为均值,σ的平方为方差,则记为:。
Maximum likelihood estimation 最大似然估计
极大似然估计其实是理想地认为,对于极少的样本观测,我们观测到的样本很可能就是发生概率最大的。
三、Loss Function 损失函数
1、推导过程
可以参见另一篇博客 https://mp.****.net/mdeditor/84944571#
2、损失函数与凸函数之间的关系
- 损失函数:在监督学习中,损失函数刻画了模型和训练样本的匹配程度,即定义了模型的评估指标.
- 凸函数的几何解释是:函数图像上的任意两点确定的弦在图像的上方;
3、全局最优与局部最优
- 在《最优化理论》之中,确定一个函数的最大值或者最小值,最关键的无非就是两点,确定“搜索方向”和“搜索步长”。不同的优化算法本质上仍是通过不同的设计,寻找不同的搜索方向,再确定搜索步长,不断迭代。
四、泰勒展开
泰勒公式主要的作用就是把一个特别复杂的函数化简,近似的求其值。
梯度下降:
梯度下降代码:
def f(x):
return x ** 2
## 首先要对f(x)进行求导 y'=2x
def h(x):
return 2 * x
X=[]
Y=[]
x=2 #初始值
step = 0.8 #步长
f_change = f(x)
f_current = f(x)
X.append(x)
Y.append(f_current)
while f_change>1e-10:
x = x-step * h(x)
tmp = f(x)
f_change = np.abs(f_current - tmp)
f_current = tmp
X.append(x)
Y.append(f_current)
print(u'x=',x)
print(u'f_change:',f_change,'f_current=',f_current)
print(u'最终结果为',(x,f_current))
五、L2-Norm,L1-Norm,L0-Norm
推到正则化公式:
附图:
参考:
书籍:机器学习精讲
视频:李宏毅机器学习2019