机器学习
author:Allen Zhang
November 8, 2018 8:15 PM
0x00 机器学习概述
机器学习一般思路
机器学习包含训练数据集、测试数据集、得分函数、损失函数(得分与目标结果对比)
机器学习的核心思路
损失函数的最优化问题(最小值)

名词解释
训练数据集一般形式为特征1…n,标签为已知
测试数据集一般形式为特征1…n,标签为未知
机器学习形式分类
根据训练数据集学习出一个函数,从而可以预测测试数据结果。
算法举例:分类,线性回归
又称作归纳性学习。
在未加标签的数据集中,找到数据隐藏的结构关系。
算法举例:聚类
机器学习算法一览

0x01 数学基础
微积分基础
梯度
- 设函数z=f(x,y)在平面区域D内具有一阶连续偏导数,则对于每一个点P(x,y)∈D,
向量:
(∂x∂f,∂y∂f)
为函数z=f(x,y)在点P的梯度,记做gradf(x,y)
- 梯度的方向是函数在该点变化最快的方向
想象一座解析式为z=H(x,y)的山,在(x0,y0)的梯度是在该点坡度变化最快的方向。
梯度是一个向量 。
凸函数
定理:f(x)在区间[a,b]上连续,在(a,b)内二阶可导,那么:
+ 若f′′(x)>0,则f(x)是凸的
+ 若f′′(x)<0,则f(x)是凹的
即:一元二阶可微的函数在区间上是凸的,当且仅当它的二阶导数是非负的。
概率统计基础
概率公式
P(A∣B)=P(B)P(AB)
P(A)=i∑P(A∣Bi)P(Bi)
P(Bi∣A)=∑jP(A∣Bj)P(Bj)P(A∣Bi)P(Bi)
常见概率分布
分布 |
参数 |
数学期望 |
方差 |
两点分布 |
0<p<1 |
p |
p(1−p) |
二项分布 |
n≥1,0<p<1 |
np |
np(1−p) |
泊松分布 |
λ>0 |
λ |
λ |
均匀分布 |
a<b |
(a+b)/2 |
(b−a)2/12 |
指数分布 |
θ>0 |
θ |
θ2 |
正态分布 |
μ,σ>0 |
μ |
σ2 |
概率分布表

概率与统计关注点
概率:已知整体求概率

统计:已知样本求整体

概率统计与机器学习的关系
- 利用统计求得整体的结果
- 利用得出的结果预测未知数据概率
- 可基于各个分布的特性来评估模型和算法
- 统计估计的是分布,机器学习训练出来的是模型,模型可能包含了很多分布。
- 训练与预测过程的一个核心评价指标就是模型的误差
- 误差本身可以是概率的形式,与概率紧密相关。
- 对误差的不同定义方式就演化成不同损失函数的定义方式。
- 机器学习是概率与统计的进阶版本。(不严谨的说法)
重要统计量
-
期望
定义:概率加权下的“平均值”
- 离散型
E(x)=i∑xipi
- 连续型
E(x)=∫−∞∞xf(x)dx
-
方差
定义:
$ Var(X)=E{[X-E(X)]2}=E(X2)-E^2(X) $
方差的平方根称为标准差。
性质:
-
无条件成立
Var(c)=0Var(X+c)=Var(X)Var(kX)=k2Var(X)
-
X和Y独立
Var(X+Y)=Var(X)+Var(Y)
-
协方差
定义:
Cov(X,Y)=E{[X−E(X)][Y−E(Y)]}
性质:
Cov(X,Y)=Cov(Y,X)Cov(aX+b,cY+d)=acCov(X,Y)Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)Cov(X,Y)=E(XY)−E(X)E(Y)
一般用于评估样本特征与模型相关性。
-
相关系数
定义:
简单相关系数:又叫相关系数或线性相关系数,一般用字母r表示,用来度量两个变量间的线性关系。
r(X,Y)=Var(X)Var(Y)Cov(X,Y)(r∈[−1,1])